DIPLOMADO EN
ANALÍTICA DE
DATOS
Modelos de analítica de datos
¿Qué es Big Data?
[Link]
¿Qué son datos?
[Link]
Cualquier secuencia de uno o más símbolos a los
DATOS que se les da significado mediante actos
específicos de interpretación.
[Link]
BIG DATA
• Término que describe la gran cantidad de datos (estructurados y
no estructurados) que abundan en una compañía a diario.
• Lo realmente valioso es cómo manejar esa información para
conseguir directrices que conduzcan a una mejor toma de
decisiones y acciones de negocio estratégicas.
BIG DATA
• Datos que son tan grandes, rápidos o complejos que es
difícil o imposible procesarlos con los métodos
tradicionales.
• Cobró impulso a principios de la década de 2000 cuando
el analista de la industria , Doug Laney, articuló la
definición actual de grandes datos como las “tres V”
BIG DATA Volumen
Visualización Valor
Viabilidad Variedad
Velocidad Veracidad
BIG DATA – 7 V de Big Data
1. Volumen. Cantidad de datos que son originados y
almacenados.
2. Velocidad. La rapidez en la que los datos son creados,
almacenados y procesados en tiempo real.
3. Variedad. Formas, tipos y fuentes en las que se registran
los datos
4. Veracidad. Es el grado de fiabilidad de la información
recibida.
BIG DATA – 7 V de Big Data
5. Viabilidad. Uso eficaz del gran volumen de datos que
manejan.
6. Visualización. Modo en el que los datos son mostrados
para encontrar claves ocultas y patrones en el tema a
investigar.
7. Valor. Datos que se transforman en información, que a su
vez se convierte en conocimiento y a su vez en una
acción o decisión.
[Link]
¿Por qué es importante el Big
data?
1) Reducir los costos
2) Reducir el tiempo
3) Desarrollar nuevos productos y optimizar las
ofertas
4) Tomar decisiones inteligentes.
¿Por qué es importante el Big
data?
• Determinar las causas de origen de fallos, problemas y
defectos casi en tiempo real.
• Generar cupones en el punto de venta basados en los
hábitos de compra del cliente.
• Recalcular portafolios de riesgo completos en minutos.
• Detectar el comportamiento fraudulento antes de que afecte
a su organización.
¿Por qué es importante del Big
Data?
Hay cinco pasos clave para hacerse cargo de este gran "centro
de datos" que incluye datos tradicionales y estructurados junto
con datos no estructurados y semiestructurados:
• Establezca una gran estrategia de datos.
• Identifique fuentes de big data.
• Acceda, gestione y almacene los datos.
• Analice los datos.
• Tome decisiones basadas en datos.
Big Data - Establezca una gran estrategia
de datos.
• Plan diseñado para ayudarle a supervisar y mejorar la forma
en que adquiere, almacena, gestiona, comparte y utiliza los
datos.
• Establece el escenario para el éxito del negocio en medio de
una abundancia de datos.
• Es importante considerar las metas e iniciativas de negocios y
tecnología existentes y futuras.
• Tratar los grandes datos como cualquier otro activo
empresarial valioso.
Big Data – La fuente de datos.
• El streaming de datos proviene del Internet de las Cosas (IoT) y otros
dispositivos conectados que fluyen a los sistemas de TI .
• Puede analizar este big data a medida que llegan, decidiendo qué datos
guardar o no guardar, y cuáles necesitan un análisis más profundo.
• Los datos de los medios sociales provienen de interacciones en Facebook,
YouTube, Instagram, etc. (imágenes, vídeos, voz, texto y sonido)
• Estos datos suelen estar en formas no estructuradas o semiestructuradas.
Big Data – La fuente de datos.
Los datos disponibles públicamente provienen de cantidades masivas
de fuentes de datos abiertos como:
• El [Link] del gobierno de los Estados Unidos,
• El World Factbook de la CIA o
• El Open Data Portal de la Unión Europea.
Otros big data puede provenir de data lakes, fuentes de datos en la
nube, proveedores y clientes.
[Link]
Big Data – Acceda, gestione y almacene
• Los sistemas informáticos modernos proporcionan la velocidad, la potencia y
la flexibilidad necesarias para acceder rápidamente.
• Las empresas también necesitan métodos para integrar datos, asegurar
la calidad de los mismos, proporcionar un gobierno y almacenamiento,
y preparar los datos para el análisis.
• Algunos datos pueden almacenarse en data warehouse tradicional,
pero también hay opciones flexibles y de bajo costo para almacenar y
manejar big data.
Big Data – Analice
• Tecnologías de alto rendimiento para utilizar todo el big data para
análisis.
• Determinar por adelantado qué datos son relevantes antes de
analizarlos.
• El análisis de big data es cómo las empresas obtienen valor e
información a partir de los datos.
• Cada vez más, el big data alimenta los esfuerzos analíticos
avanzados de hoy en día, como la inteligencia artificial.
Big Data – Tome decisiones
• Los datos bien administrados y confiables conducen a un analítica
y decisiones confiables.
• Para seguir siendo competitivas, las empresas necesitan
aprovechar todo el valor del big data y operar de una manera
basada en datos.
• Las organizaciones basadas en datos se desempeñan mejor, son
operacionalmente más predecibles y son más rentables.
Proveedores Big Data
Big data proveedores
Big data proveedores
¿Qué es Small Data?
¿Small Data?
Es un conjunto de datos con un formato y un volumen que los hace
accesibles, informativos y procesables.
El objetivo del Small Data es hacer entendible el Big Data,
conectando, organizando y empaquetando los datos para que estén
disponibles para todos los miembros de la organización, siendo
fáciles de aplicar en su día a día, y se centren en la tarea en cuestión
que se desea abordar.
Small Data vs Big
Data
La diferencia entre el Big Data y el Small Data está en que:
• El primero atiende a las 3 V : volumen de datos, variedad de los
tipos de datos y velocidad a la que se procesan;
• El Small Data se compone de porciones utilizables.
Los más puristas del Small Data sostienen que, es importante para las
empresas utilizar mejor sus recursos, y de una manera más eficiente.
¿Por qué usar Small Data vs Big
Data?
El análisis del Big Data es complicado.
• El análisis del Big Data requiere tecnología y perfiles específicos de datos y
Data Science que sepan leer entre los miles de datos, utilizando
algoritmos y modelos matemáticos difíciles de comprender para los
expertos en marketing e internet.
• La mayoría de responsables de marketing sólo necesitan una parte muy
pequeña de esos datos para saber cómo enfocar sus campañas.
Small Data vs Big
Data
Analizar el Small Data es sencillo porque lo tenemos a nuestro
alrededor.
• Es el caso de los datos sociales de los que disponemos a través de
las redes sociales.
• Estos datos se pueden recoger fácilmente, estando ya listos para
poder tomar decisiones o sacar conclusiones válidas.
• Las personas estamos continuamente generando información a
través de las redes sociales.
¿Por qué usar Small Data vs Big
Data?
El Small Data será el núcleo de cualquier CRM
• Social CRM y toda la información accesible y útil sobre tus clientes, te
servirán para crear segmentos, definir cuáles de ellos son influyentes,
o determinar cuáles tienen más probabilidades de recomendarte a su
red.
• Sabiendo combinar la información de los canales sociales y los que
registra tu página web, podrás crear perfiles y definir mejor tus Buyer
Personas, de cara a diseñar estrategias de marketing más efectivas.
¿Por qué usar Small Data vs Big
Data?
Ayuda a mejorar el ROI.
La inversión en Small Data comparado con el retorno que
te ofrece al poder plantear campañas más eficaces en
menos tiempo es mínima.
¿Por qué usar Small Data vs Big
Data?
Tiene una grandísima aplicación en el sector consumo
• Los mismos consumidores ya están sirviéndose sin darse cuenta,
del Small Data. Por ejemplo, cada vez que optimizan sus compras,
potencian su rutina de actividad física con una app, o recomiendan
el mejor precio de un vuelo.
• Ya existen webs y aplicaciones que ayudan a los consumidores a
elegir y optimizar sus procesos, bien sean financieros, de salud o
de compras.
¿Por qué usar Small Data vs Big Data?
Se están empezando a diseñar plataformas de Small Data.
• Las grandes compañías tecnológicas, las cuales están empezando a
desarrollar aplicaciones y plataformas que hagan aún más sencilla la
interpretación de datos y la creación de cuadros de mando realmente
entendibles.
• Gigantes como SAP o Oracle están trabajando ya en ello.
¿Por qué usar Small Data vs Big Data?
Es información Customer Centric dirigida a conocer al
consumidor.
• El Small Data busca ayudarte a que conozcas realmente al
usuario final, sus necesidades y de qué manera puedes
interactuar con ellos.
• Conociendo mejor al usuario, podremos hacer campañas más
personalizadas y afines a sus gustos y necesidades, redundando
por tanto en un incremento de la efectividad publicitaria.
¿Por qué usar Small Data vs Big Data?
Es sencillo.
• El Small Data se basa en hacer sencillos los datos, analizando sólo
los adecuados para conseguir las conclusiones que te interesan
para tu negocio.
• Lógicamente, en muchos casos, el Small Data comenzará con Big
Data, del cual rechazaremos toda aquella información que nos
pueda estorbar.
¿Qué es la Inteligencia
Artificial?
Inteligencia Artificial
Historia
• Inteligencia Artificial =AI (Artificial Intelligence)
• John McCarthi, 1956
• Pionero de la inteligencia Artificial
• Premio Turing y varias distinciones
Inteligencia Artificial
Inteligencia Artificial
Aprendizaje de máquina
Machine Learning
Machine Learning
Aprendizaje de máquina o
Machine Learning
Es el subcampo de las ciencias de la computación y una
rama de la inteligencia artificial, cuyo objetivo es
desarrollar técnicas que permitan que las computadoras
aprendan.
Aprendizaje Supervisado
• El algoritmo produce una función que establece una
correspondencia entre las entradas y las salidas deseadas
del sistema. Un ejemplo de este tipo de algoritmo es el
problema de clasificación.
• La base de conocimiento del sistema está formada por
ejemplos de etiquetados anteriores.
• Este tipo de aprendizaje puede llegar a ser muy útil en
problemas de investigación biológica, biología
computacional y bioinformática.
Aprendizaje No Supervisado
Todo el proceso de modelado se lleva a
cabo sobre un conjunto de ejemplos formado
tan solo por entradas al sistema. No se tiene
información sobre las categorías de esos
ejemplos. Por lo tanto, en este caso, el
sistema tiene que ser capaz de reconocer
patrones para poder etiquetar las nuevas
entradas.
Aprendizaje No Supervisado
Es un método de Aprendizaje Automático
donde un modelo se ajusta a las
observaciones.
Se distingue del Aprendizaje supervisado por el
hecho de que no hay un conocimiento a priori.
En el aprendizaje no supervisado, un conjunto
de datos de objetos de entrada es tratado.
Técnicas de Machine Leaning
Regresión
El análisis de regresión es un
subcampo del aprendizaje
automático supervisado cuyo
objetivo es establecer un método
para la relación entre un cierto
número de características y una
variable objetivo continua
Clustering o Segmentación
• Estos grupos, centrándonos en una clasificación estricta, deben ser mutuamente
exclusivos; es decir, cada elemento debe pertenecer sólo a un grupo y los grupos deben
estar compuestos por elementos lo más parecidos posible y, a la vez, lo más diferentes
posibles entre grupos.
• Ateniendo a una definición «tradicional», se busca conseguir grupos homogéneos
internamente y heterogéneos entre ellos (en la práctica, existen casos límite no tan
diferentes entre sí que pueden presentar potenciales oportunidades para negocio).
Clustering o Segmentación
• La calidad del dato. En ocasiones es imprescindible normalizar dicha
información.
• El total de grupos a calcular. Es imprescindible la colaboración de
aquellos departamentos que conozcan el problema de negocio que se
pretende resolver para definir si debe existir un total de grupos a
calcular.
Clustering o Segmentación
• Las distancias entre los grupos (lo diferentes que son) y el tamaño del cluster,
si aplica.
• La jerarquía a la hora de definir esos grupos. Cuando se delimita la
clasificación en un solo cluster, tomar la decisión de si pertenece a un grupo
“antes de tiempo” puede condicionar la clasificación y estar dicho elemento en
un grupo menos afín que otro.
Regresión
El análisis de regresión es un
subcampo del aprendizaje
automático supervisado cuyo
objetivo es establecer un método
para la relación entre un cierto
número de características y una
variable objetivo continua
Árboles de decisión
Un árbol de decisión es un modelo
predictivo que divide el espacio de los
predictores agrupando observaciones
con valores similares para la variable
respuesta o dependiente.
Árboles de decisión
El tipo de problema a resolver
dependerá de la variable a predecir:
Variable dependiente: estaríamos
ante un problema de regresión.
Máquinas de Vectores de Soporte (SVM)
• SVM por sus siglas en inglés (Support Vector
Machines). Se pueden usar tanto para regresión
como para clasificación.
Máquinas de Vectores de Soporte (SVM)
Máquinas de Vectores de Soporte (SVM)
Máquinas de Vectores de Soporte (SVM)
Redes Neuronales
Redes Neuronales
[Link]
[Link]
Gato
[Link]
Random Forest | Arboles Aleatorios
Random forest (o random forests) también conocidos en
castellano como '"Bosques Aleatorios"' es una combinación de
árboles predictores tal que cada árbol depende de los valores de
un vector aleatorio probado independientemente y con la misma
distribución para cada uno de estos. Es una modificación
sustancial de bagging que construye una larga colección de
árboles no correlacionados y luego los promedia
Random Forest | Arboles Aleatorios
El algoritmo Random Forest es un algoritmo de clasificación
supervisado. En el que se crea un bosque que se divide
aleatoriamente. Existe una relación directa entre la cantidad de
árboles en el bosque y los resultados que puede obtener: cuanto
mayor es la cantidad de árboles, más preciso es el resultado.
Pero una cosa a tener en cuenta es que crear el bosque no es lo
mismo que construir la decisión con un enfoque de índice de
ganancia o ganancia de información.
Random Forest | Bosques Aleatorios
Un Random Forest es un conjunto (ensemble) de árboles de
decisión combinados con bagging. Al usar bagging, lo que en
realidad está pasando, es que distintos árboles ven distintas
porciones de los datos. Ningún árbol ve todos los datos de
entrenamiento. Esto hace que cada árbol se entrene con
distintas muestras de datos para un mismo problema. De esta
forma, al combinar sus resultados, unos errores se
compensan con otros y tenemos una predicción que
generaliza mejor.
Aprendizaje profundo es un conjunto de
algoritmos de aprendizaje automático que
intenta modelar abstracciones de alto nivel en
datos usando arquitecturas computacionales
que admiten transformaciones no lineales
múltiples e iterativas de datos expresados en
forma matricial o tensorial.
Clustering o Segmentación
Conjunto de técnicas descriptivas
(no explicativas) que tiene por
objetivo formar grupos a partir de
un conjunto de elementos, los
cuales tienen diferentes
características o variables para
permitir dicha agrupación.
K Vecinos cercanos
K vecinos más cercanos es
uno de los algoritmos de
clasificación más básicos y
esenciales en Machine
Learning.
Pertenece al dominio del
aprendizaje supervisado y
encuentra una aplicación
intensa en el reconocimiento
de patrones, la minería de
datos y la detección de
intrusos.
K Vecinos cercanos – Aprendizaje perezoso
Este es un método de clasificación no paramétrico, que estima el
valor de la función de densidad de probabilidad o directamente la
probabilidad a posteriori de que un elemento a partir de la
información proporcionada por el conjunto de prototipos.
En el proceso de aprendizaje no se hace ninguna suposición acerca
de la distribución de las variables predictoras.
En el reconocimiento de patrones, el algoritmo k-nn es usado como
método de clasificación de objetos (elementos) basado en un
entrenamiento mediante ejemplos cercanos en el espacio de los
elementos. k-nn es un tipo de aprendizaje vago (lazy learning),
donde la función se aproxima solo localmente y todo el cómputo es
diferido a la clasificación. La normalización de datos puede mejorar
considerablemente la exactitud del algoritmo k-nn
K Means – Aprendizaje perezoso
K-means es un algoritmo de clasificación
no supervisada (clusterización) que agrupa
objetos en k grupos basándose en sus
características.
El agrupamiento se realiza minimizando la
suma de distancias entre cada objeto y el
centroide de su grupo o cluster. Se suele
usar la distancia cuadrática.
Tiene como objetivo la partición de un
conjunto de n observaciones en k grupos
en el que cada observación pertenece al
grupo cuyo valor medio es más cercano. Es
un método utilizado en minería de datos
Naive Bayes – Bayesiano - Ingenuo
En teoría de la probabilidad y minería de datos, un
clasificador Naive Bayes es un clasificador
probabilístico fundamentado en el teorema de Bayes
y algunas hipótesis simplificadoras adicionales. Es a
causa de estas simplificaciones, que se suelen
resumir en la hipótesis de independencia entre las
variables predictoras, que recibe el apelativo de
naive, es decir, ingenuo.
Naive Bayes – Bayesiano - Ingenuo
Un clasificador ingenuo de Bayes considera que cada una de estas
características contribuye de manera independiente a la probabilidad de que esta
fruta sea una manzana, independientemente de la presencia o ausencia de las
otras características.
En muchas aplicaciones prácticas, la estimación de parámetros para los modelos
de Bayes utilizan el método de máxima verosimilitud, es decir, se puede trabajar
con el modelo ingenuo de Bayes sin aceptar la probabilidad bayesiana o
cualquiera de los métodos bayesianos.
Una ventaja del clasificador ingenuo de Bayes es que solo se requiere una
pequeña cantidad de datos de entrenamiento para estimar los parámetros
necesarios para la clasificación (las medidas y las varianzas de las variables).
Naive Bayes – Bayesiano - Ingenuo
Solo es necesario determinar las varianzas de las variables de cada clase y no
toda la matriz de covarianza. Para otros modelos de probabilidad, los
clasificadores ingenuos de Bayes se pueden entrenar en entornos de
aprendizaje supervisado.
[Link]
[Link]
[Link]
Trabajar con Datos
Análisis Exploratorio de datos (EDA)
Tipos Machine Learning
[Link]
Azure AI
Azure AI Servicios Cognitivos
Azure Machine Learning Studio
Es una herramienta para la creación visual de experimentos y proyectos que tengan
como objetivo crear modelos de machine learning.
Hay dos maneras de comenzar con Azure Machine Learning Studio.
La primera es dirigirnos al sitio [Link] y desde ahí iniciar sesión con tu
cuenta Microsoft no importando si tienes cuenta de Azure o no.
[Link]