TRABAJO
PRCTICO
Qu es?
ElBig Data,Macro datosoDatos masivoses
un concepto que hace referencia
alalmacenamiento de grandes cantidades de
datosy a los procedimientos usados para
encontrar patrones repetitivos dentro de
esos datos. El fenmeno delBig Datatambin
es llamadodatos a gran escala.
Cmo se trabajan?
La disciplina dedicada a losdatos
masivosse enmarca en el sector de las
tecnologas de la informacin y la comunica
cin
. Esta disciplina se ocupa de todas las
actividades relacionadas con los sistemas
que manipulan grandesconjuntos de datos.
Las dificultades ms habituales vinculadas
a la gestin de estas cantidades de datos
se centran en la recoleccin y el
almacenamiento, bsqueda, comparticin,
anlisis,y visualizacin. La tendencia a
manipular enormes cantidades de datos se
debe a la necesidad en muchos casos de
incluir dicha informacin para la creacin
de informes estadsticos y modelos
predictivos utilizados en diversas
materias.
Tipos
Tipos deBig Data:
Datosestructurados (Structured Data):Datos que tienen bien
definidos su longitud y su formato, como las fechas, los
nmeros o las cadenas de caracteres. Se almacenan en tablas.
Un ejemplo son lasbases de datosrelacionales y las
hojas de clculo.
Datosno estructurados (Unstructured Data):Datos en el
formato tal y como fueron recolectados, carecen de un formato
especfico. No se pueden almacenar dentro de una tabla ya que
no se puede desgranar su informacin a tipos bsicos de datos.
Algunos ejemplos son losPDF, documentos multimedia,e-mailso
documentos de texto.
Datossemiestructurados (Semistructured Data):Datos que no se
limitan a campos determinados, pero que contiene marcadores
para separar los diferentes elementos. Es una informacin poco
regular como para ser gestionada de una forma estndar. Estos
datos poseen sus propiosmetadatossemiestructuradosque
describen los objetos y las relaciones entre ellos, y pueden
acabar siendo aceptados por convencin. Un ejemplo es elHTML,
elXMLo elJSON.
Procesos de los datos
Captura
Transformacin
Almacenamiento No SQL
Anlisis de datos
Visualizacin de datos
Captura
Generados por las personas:El hecho de enviar correos electrnicos por
e-mail o mensajes porWhatsApp, publicar un estado enFacebook,tuitear
contenidos o responder a una encuesta por la calle son cosas que
hacemos a diario y que crean nuevos datos ymetadatosque pueden ser
analizados.
Transacciones de datos:La facturacin, las llamadas o lastransaccin
entre cuentas generan informacin que tratada pueden ser datos
relevantes. Por ejemplo en las transacciones bancarias.
E-marketingy web:Generamos una gran cantidad de datos cuando navegamos
porinternet. Con laweb2.0 se ha roto elparadigmawebmaster-
contenido-lector y los mismos usuarios se convierten en creadores de
contenido gracias a su interaccin con el sitio. Existen muchas
herramientas detrackingutilizadas en su mayora con fines demarketing
yanlisis de negocio.
Machine to Machine(M2M):Son las tecnologas que comparten datos con
dispositivos: medidores,sensoresde temperatura, de luz, de altura, de
presin, de sonido
Biomtrica:Son el conjunto de datos que provienen de la seguridad,
defensa y servicios de inteligencia. Son cantidades de datos generados
porlectores biomtricoscomo escneres de retina, escneres de
huellas digitales, o lectores de cadenas deADN.
Transformacin
Una vez encontradas las fuentes de los datos
necesarios, muy posiblemente dispongamos de un
sinfn de tablas de origen sin estar
relacionadas. El siguiente objetivo consta en
hacer que los datos se recojan en un mismo
lugar y darles un formato.
Aqu entran en juego las plataformasETL
(Extract, Transform and Load). Su propsito
es extraer los datos de las diferentes fuentes
y sistemas, para despus hacer
transformaciones (conversiones de datos,
limpieza dedatos sucios, cambios de formato)
y finalmente cargar los datos en la base de
datos oData Warehouseespecificada. Un
ejemplo de plataformaETLes elPentahoData
Integracin, ms concretamente su aplicacin
Spoon.
Almac. No SQL
El trminoNoSQLse refiere aNot OnlySQL y son sistemas de
almacenamiento que no cumplen con el esquema entidad-
[Link] un sistema de almacenamiento mucho ms flexible
y concurrente y permiten manipular grandes cantidades de
informacin.
Distinguimos cuatro grandes grupos de bases de datosNoSQL:
Almacenamiento Clave-Valor (Key-Value):Los datos se almacenan de
forma similar a los maps odiccionarios de datos, donde se accede
al dato a partir de una clave nica.
Almacenamiento Documental:Lasbases de datos documentalesguardan
un gran parecido con las bases de datos Clave-Valor,
diferencindose en el dato que guardan.
Almacenamiento en Grafo:Lasbases de datos en graforompen con la
idea de tablas y se basan en lateora de grafos, donde se
establece que la informacin son los nodos y las relaciones entre
la informacin son las aristas,algo similar en el
modelo relacional.
Almacenamiento Orientado a Columnas:Su modelo de datos es
definido como un mapa de datosmultidimensionalpoco denso,
distribuido y [Link] orienta a almacenar datos con
tendencia a escalar horizontalmente.
Anlisis de datos
Teniendo los datos necesarios almacenados segn diferentes
tecnologas dealmacenamiento, nos daremos cuenta que
necesitaremos diferentes tcnicas deanlisis de datos
como las siguientes:
Asociacin:Permite encontrar relaciones entre diferentes
variables.
Minera de datos (Data Mining):Tiene como objetivo
encontrar comportamientos predictivos. Engloba el conjunto
de tcnicas que combina mtodos estadsticos y de machine
learning con almacenamiento en bases de datos.
Agrupacin (Clustering):El anlisis de clsteres es un
tipo deminera de datosque divide grandes grupos de
individuos en grupos ms pequeos de los cuales no
conocamos su parecido antes del anlisis.
Anlisis de texto (Text Analytics):Gran parte de los
datos generados por las personas son textos, comoe-mails,
bsquedaswebo contenidos. Esta metodologa permite
extraer informacin de estos datos y as modelar temas y
asuntos o predecir palabras.
Visualiz. de datos
Nuestramente agradecer mucho ms la
visualizacin amigable de unos
resultados estadsticos en grficos o
mapas que no en tablas con nmeros y
conclusiones. EnBig Datase llega un
paso ms all: parafraseando aEdward
Tufte, uno de los expertos en
visualizacin de datos ms reconocidos
a nivel mundial "El mundo es complejo,
dinmico, multidimensional, el papel es
esttico y plano. Cmo vamos a
representar la rica experiencia visual
del mundo en la mera planicie?