BIG DATA: es muucha informacio, por ello se necitan cubos de información para su
almacenamiento:
Programa de ordenador: Un conjunto de líneas de código que se escriben en un lenguaje de
programación para resolver un problema. Cuando un programa de ordenador se ejecuta en un
ordenador consume recursos (CPU memoria). Siempre se incremente para almacen de mas
información, entonces se necsitan mas recursos.
Asi que se utilizo programación distribuida, conjunto de maquinas que cooperan entre si, para
un mayor almacenamiento. Cuesta tiempo y mantenimiento.
Indice invertido: Google accee a las webs y lleee el [Link] que paginas puedes acceder en
pytabys , luego a clasifica , índices invertidos, para cada palabra tienen identificadores de esa
palabra.
FASES DEL PROYECTO BIG DATA:
1) Identificar las fuentes de datos para procesar. Feunbets medios redes
2) Ingesta o almacenamientos de datos data lige (no estructuflume kajka,sqooq estruc)
3) Alamacebamiento (hdfs sql)
4) Tratameinto de datos(fdatos en conocimeinto (hadoop hive pig spark)
5) Visualizacion power bi tavbleu
6)
Volumen: sencilla fiable y económica
Variedad ; estructurados hojas de calculo no
estruucturadps textgos semiestructurados pagina web 80%
Velocidad: lotes datos 1 vez al mes, cada segundo, fast data,
Valor
M2. ESTRATEGIA Y GOBIERNO DEL DATO
Conceptos: Datos y objetivos del Gobierno del Dato
El propósito del Gobierno del dato es poner bajo control y en
estado óptimo los datos de los que dispone la empresa para su comprensión y
aprovechamiento. Esto significa que estén definidos, haya responsables de los mismos,
su calidad sea conocida y existan reglas claras para administrarlos
PIRAMIDE
DATOS sabiduría conocimiento información y
datos
Datos son hechos: textos nuemros imágenes audios números
Informacion: uniimos definición anterior
Conocimiento: perspectiva e hipótesis tendencia y ppatron basado en la exp
Sbiduria;: iinetriorizar conocim
Características:
Enfoques para la definición de Estrategia de Datos
Ahora más que nunca, la habilidad para gestionar un gran volumen y diversidad de
información es crítica para la supervivencia de las empresas. El solo hecho de manejar
tal cantidad de datos, hace que surjan problemas que requieren en muchos casos de
complejas soluciones, como por ejemplo: garantizar la unicidad del dato, asegurar su
calidad, velar por su accesibilidad, cuidar de su seguridad...
CDO: shift data office
Balancear enfoques y equilibrar.
Estrategia de Datos "Defensiva-Ofensiva" y Balance entre
ambos
Veamos en que consiste la Estrategia Defensiva-Ofensiva de datos y el balance que se
produce entre ambas para lograr los objetivos empresariales.
Defensivo: minimizar riesgos (elaborar cativdades para asegurar el cumplimientod e
normas, robos ciebr ataques, gastos yecnologicos=)
Ofensivo: soporte a los objetivos de negocios (increento d eingresis. Max de beneficios
mejora de la satisfacion del cliente ) mejorar el conocimto del clientes, integrar la
estrategia d ellos clientes
Conocimieto del clientes:
Estrategias(conbiacion)
Principios y roles en el Gobierno del Dato
El Gobierno del Dato se define como un conjunto de principios, políticas,
procedimientos, herramientas, roles y responsabilidades, orientados a promover la
mejora de la calidad y consistencia de los datos, y a conseguir una mayor y mejor
disponibilidad de los mismos.
De esta manera, las empresas pueden satisfacer las necesidades de información en la
gestión, reporting y toma de decisiones.
El establecimiento de un adecuado Gobierno del dato permite tener una visión clara de
los datos, saber quién es el propietario, conocer qué usos se hacen de los datos, cómo
pueden gestionarse y cómo se puede extraer valor de estos datos.
Para que los datos tengan valor tienen que estar disponibles, ser entendibles por los
diferentes usuarios y ser fiables para la toma de decisiones.
Se estima que sólo un 15% de los datos que almacenan las compañías tiene Valor.
El Gobierno del dato es una tarea de toda la organización. En mayor o menor medida
todas las personas desempeñan alguna función sobre los datos.
Es importante distinguir entre los principales roles y las responsabilidades asociadas e
identificar dentro de la empresa quién desempeñará cada función. Consulta el
documento adjunto para conocer más al respecto.
15% de datos tiene valor
85% no disponible no se entiende no sirve para toma de decisionses:
Principios
Disponibilidad catalogo y respositorio
Entendimiento :diccioarios único
y fiablidad calidad de datos de unto de inflexión
Funciones y herramientas del Gobierno del Dato
El principal problema del Gobierno del Dato es que abarca un gran abanico de
funciones. Para facilitar las cosas, se suele descomponer en subdisciplinas que se
pueden priorizar de acuerdo a su alineación con las metas de la organización y al
impacto económico que representan.
Para llevar a cabo las funciones de Gobierno y Gestión de los Datos es necesario
disponer de herramientas que permitan gestionar y llevar a cabo de una manera
automática los diferentes procesos definidos.
Marco motodologico: DAMA (data management association)
Gobierno de datos:planifi supervision y control de la getsion y udo de datos
Arwuitectira: definicion del modelo para ñla ejecucion de los archivos dedatos
Modelado y desarrollo: desarrollo análisis prueba diseño imlementaciomm,
mantenimiento
Gestion de opraciones: apoyo desde la adwuisicion d edatos hasta su depuración
Getsion de seguridad: privacidad confidencialidad acceso seguro
Gestion de la calidad: segiineto y mejorade la clidd de dsatis
Dasboard
Descubre la Inteligencia Artificial
La inteligencia artificial quizás sea la tecnología más disruptiva que hemos conocido
hasta el momento, y supone uno de los mayores hitos de nuestro tiempo.
Tras décadas de desarrollo, la inteligencia artificial ha salido de la universidad y del
laboratorio, y se ha ido filtrando poco a poco en diversos ámbitos de nuestra vida: en
nuestros teléfonos móviles, en nuestros coches, en los bancos y hasta en la forma en la
que escuchamos música.
Darmonth naciiento de la inteligencia artificial:
Test de Turing:
Aplicaciones de la Inteli
gencia Artificial
A continuación vamos a conocer los diferentes usos de la inteligencia artificial en los
principales sectores.
Sanidad: mamografías hospital houstion, automocion virginia tech , ambitoo jurídico,
electrodomestios.
Ambito militar:robot aviones, desactivar explosivos.
.---------------------------------------------------------------------------------------------------------
-
Introducción a los casos de uso
En este vídeo vamos a poder ver casos prácticos en los que se utiliza Big Data.
Son numerosas las empresas que hacen uso en su día a día de esta tecnología. Vamos a
verlos para que seamos conscientes de que el Big Data está en nuestro día a día.
Compañias de ditreid, amazon o Walmart: dispares: contenidos televisico o fondos de
iversion
Ejemplo aplicado "House of cards"
Netflix es una empresa americana que proporciona un servicio por el que un usuario
(cliente) puede darse de alta pagando una cuota fija al mes, obteniendo acceso ilimitado
a todos los contenidos de la plataforma, películas y series principalmente.
Su infraestructura es muy madura e innovadora en el procesamiento de datos, basada en
tecnología Amazon tanto para almacenamiento como para procesamiento, con fuerte
uso de Spark.
Antes de comenzar con el caso de “House of Cards”, vamos a describir los datos que
potencialmente puede utilizar Netflix para su posterior análisis y realimentación de sus
sistemas.
¿Qué datos estáticos se obtienen?
Datos del cliente, edad, género, país y ciudad donde reside.
Los datos de las películas y series, entre otros:
Productor.
Actores y actrices principales.
Actores y actrices secundarios.
Género: comedia, intriga, amor.
Guionistas.
¿Qué datos dinámicos se almacenan?
Para cada cliente:
Qué ha visto, género, actores.
Ratings, cómo valoran los clientes el contenido que han visionado 4 millones
diarios.
Cuándo ha realizado una pausa.
Cuándo ha acelerado la cinta, hacia delante o hacia atrás.
Qué día de la semana ve qué contenido.
Fecha de visionado.
Hora de visionado.
Cuándo ha abandonado un contenido.
Búsqueda de contenido que ha realizado cada cliente.
Cómo se mueve por la web, tiempo que se está en cada contenido.
Si se hace clic para tener más información.
Si se ve el tráiler.
Cuando comienzan los créditos.
2011: no renovo contratos, perdida de contenidos, dejo dedepender de productores
extrernos
1) Producir contenido de terceros.
2) Utilizar los datos de los clientes para producir que producir.
-series y películas.
- venmas de una temporada.
- thriller y drama político mas audiencias. House of cars.
- campañas online, television redes.
Sistemas de recomendación y escucha activa: "Amazon",
"Netflix" y "Walmart"
Amazon
Los sistemas de recomendación son una herramienta de personalización muy utilizada
ya que son muy efectivos.
Amazon es otra de las empresas que usa de manera masiva los datos y aprendizaje
automático. El 35% de las ventas que hace vienen de su sistema de recomendación.
Tiene varios sistemas de recomendación en esta sección vamos a describir dos de ellos.
Netflix
Netflix tiene uno de los sistemas de recomendación más potentes que existen. El 70%
de las visualizaciones que tiene Netflix provienen de su sistema de recomendación.
Walmart
Walmart es también una de las empresas que más fuertemente ha apostado por la
tecnología Big Data.
Sus resultados son un fiel reflejo de esta decisión estratégica, si bien usa Big Data de
manera extensiva para analizar precios, optimización de unidades en almacén, selección
de personal y retención.
En el vídeo vamos a ver cómo usan las redes sociales para optimizar las referencias
disponibles en cada tienda y poder dar mejor servicio a sus clientes.
Sistema de recomendacio: busca a todos los usurios que teinesn tus gustos, el
istema busca los puntajes y se le recomienda a los otros. Sitema de
recomendación colaborativa.
Amazon, ve si un usuario vio o compro algún producto, incentivar al usuario
comprar otro producto, escucha activa por redes, cruza con los productos y
referencias, y si no lo tiene lo incorpora.
Sector retail: Fondos de inversión y optimización de precios
Los fondos de inversión también utilizan el Big Data, con la intención de obtener
información antes que la competencia, y tener así una ventaja a la hora de la toma de
decisiones la compra o venta de un determinado valor bursátil.
Otra área donde se utiliza Big Data es en la optimización de precios.
Veamos en el vídeo cómo se aplica en estos dos sectores.
Compro imágenes en tres momentos diferentes: cuantos coches y tipos, con esos
datos creo un sistema de protección, para predecir ventas .
Cuanto esta dispuesto a pagar por ese producto.
Varables para la optimización d eprecionss.
Cómo obtenemos la información
Estamos más que habituados a ver presentaciones y, en muchos casos, a hacerlas.
Muchas veces nos llama la atención lo claras que son algunas presentaciones a la hora
de transmitir el mensaje, son eficientes.
En este vídeo vamos a ver las claves de la visualización para que a partir de ahora tú
también puedas hacer presentaciones eficientes.
Leer datos: estartegias de visualización.
70% visualización: imágenes. Graficos en presentación,
Objetivo: Que comnicar
Audiencia:A quien comunicar
Identif datos:Que datos hay
Veamos los pasos que se deben seguir para poder realizar una visualización efectiva:
El objetivo de la visualización.
La audiencia.
Los datos.
1) Que comunicar que tipo d emensaje: objetivos específicos
2) Conocer como son las personas que interceptaran la información
Complejidad max 3 variable so dimensiones
3) Tipos de datos:
Tipos de datos
Conoce los distintos tipos de datos que podemos tener como base para hacer una
correcta visualización.
Que tipo es en fincion de valores:
Cualitativa: características que no pueden ser medidas con números:
Categorica o cualitativa nominal: ejemplo, estado civil
Variable cualitatova ordinal: orden: nota de examen, puesto
Varaible cuantitativa: numéricos
Discreta : valores aislados: ejemplo numero de ehrmao de amigos.
Continua: valores entre amigos altura ejel
Propiedades y elementos de una visualización
Un elemento de visualización es cualquier atributo que la compone, como los colores,
las barras, las formas, y demás recursos que podamos utilizar para elaborarla.
Veamos en el vídeo los elementos más usados en las visualizaciones y si tienen o no la
propiedad de orden natural.
Factores:
Orden natural: muchos valores: posición, etiquetas, longitud y tamaños
diarias. Grosr de líneas, brillo y saturación:
No tienen orden nat: color y forma.
Gráficos, colores y texto: uso recomendado
Veamos los gráficos más usados en el día a día y cuándo se recomienda su uso.
Por último, conozcamos algunos aspectos más sobre los colores y el texto en una
visualización.
Ya no tienes excusas para realizar visualizaciones efectivas. ¡Ponlas en práctica para
conseguir grandes resultados!
Tipos de graficos:
Barras: compoarra valores en categorías o entre categirias:
Líneas: datos continuas o tendencias:
Tarta: cuales con las mas importantes:
Color. Rojo peligro verde permiso naturaleza, amarilo -: precaución
felixidad, azul calma, negro muerto lujo o sofisticación.
Texto: Mayusculas; complicadas de leer limaitado uso.
No usar sombras,