Análisis de datos.
ESTADÍSTICA PARA EL
ANÁLISIS DE DATOS.
El análisis de datos estadísticos es el proceso que nos permite
interpretar los datos numéricos que disponemos, con el
objetivo de tomar las decisiones de negocio más eficaces.
De hecho, las empresas pueden tomar decisiones 5 veces
más rápido que su competencia si las basan en el análisis de
datos
Cada decisión que se quiera tomar en nuestras organizaciones debe
estar basada en datos. Esto significa que la estadística es una
herramienta muy potente en nuestras manos. Por ello, cerca del 81%
de los directivos considera que sus decisiones deben estar basadas
en datos.
Existen muchas herramientas para el análisis de datos
estadísticos, Excel es una de ellas. Este software cuenta con
funciones estadísticas que nos facilitan la gestión de los datos.
En el mundo digital y de los negocios, el análisis de datos
estadísticos está asociado a las técnicas de big data y de
business intelligence. Ambas áreas aportan desde distintas
perspectivas una serie de mecanismos para procesar y
analizar datos. Esto con el fin de transformarlos en información
estratégica y relevante para los negocios.
La estadística es una ciencia matemática que se ocupa de la
recopilación, organización, análisis, interpretación y presentación
de datos. Así, la estadística se orienta a la extracción de
conclusiones y a la toma de decisión.
Etapas de análisis de datos estadísticos
El análisis de datos estadísticos es un proceso que se compone,
principalmente, de 5 etapas distintas:
1. La recopilación de datos de la muestra seleccionada,
provenientes de encuestas, redes sociales, big data, business
intelligence, entre otros.
2. El procesado de los datos, que incluye su limpieza, filtrado,
homogeneización.
3. La presentación de los datos, sobre todo de forma gráfica.
4. El análisis de los datos, que nos permite extraer conclusiones
que valgan de forma general a partir de los datos de la muestra.
5. La interpretación de los datos, para detectar tendencias y
patrones y predecir escenarios futuros.
¿Para qué sirve el análisis de datos
estadísticos?
La estadística moderna es una ciencia que se aplica desde
hace un siglo en un sinfín de campos, desde la salud hasta las
ciencias sociales. Sin embargo, la reciente explosión del big
data ha impulsado su aplicación a los negocios. Esto ha
ofrecido a cada empresa que quiera mantenerse competitiva en
el mercado unos instrumentos para tomar decisiones basadas
en datos.
Por esto, el análisis de datos estadísticos es un proceso
central en cada estrategia de inteligencia de negocio.
Este tipo de análisis de datos sirve para convertir los datos
puros o brutos en insights de negocio. Es decir, en información
valiosa y práctica que sirve para entender un negocio, el
mercado y su contexto, permitiendo así tomar decisiones más
efectivas.
Tipos de Big Data
Para profundizar en qué es Big Data y para qué sirve, es necesario
saber también que existen distintos tipos de datos asociados a esta
técnica.
A la hora de clasificar los “grandes datos” podemos hacerlo según
dos criterios: procedencia y estructura. Así, según su procedencia,
los datos pueden llegar desde distintas fuentes, entre otras:
•Web y Redes Sociales: información disponible en Internet como
contenido Web, generada por los usuarios en su actividad en las
redes sociales o información de búsquedas en buscadores.
•Machine-to-Machine (M2M): datos generados a partir de la
comunicación entre sensores inteligentes integrados en objetos
de uso cotidiano.
•Transacciones: incluye registros de facturación, llamadas o
transacciones entre cuentas.
•Biométricos: datos generados por tecnología de identificación
de personas mediante reconocimiento facial, de huellas
dactilares o mediante información genética.
•Generados por personas: a través de correos electrónicos,
servicios de mensajería o grabaciones de llamadas.
•Generados por organizaciones tanto públicas como privadas:
datos relacionados con el medioambiente, estadísticas
gubernamentales sobre población y economía, historiales
clínicos electrónicos, etc.
Según su estructura, los datos pueden
ser:
•Estructurados: datos que tienen definidos su formato, tamaño y longitud,
como las base de datos relacionales o Data Warehouse.
•Semiestructurados: datos almacenados según una cierta estructura
flexible y con metadatos definidos, como XML y HTML, JSON, y las hojas
de cálculo (CSV, Excel).
•No estructurados: datos sin formato específico, como ficheros de texto
(Word, PDF, correos electrónicos) o contenido multimedia (audio, vídeo, o
imágenes).
Ventajas competitivas que pueden obtener las empresas early adopter
del Big Data. Estas empresas que han entendido qué es Big Data y
para qué sirve tienen:
Dos veces más probabilidades de obtener un rendimiento financiero
superior que la media de sus industrias.
Cinco veces más probabilidades de tomar decisiones mucho más
rápido que sus competidores.
Tres veces más probabilidades de ejecutar las decisiones según lo
previsto.
El doble de probabilidades de tomar decisiones basadas en datos.
Ejemplos reales de qué es Big Data y
para qué sirve
1.Marketing: segmentación de clientes. Muchas empresas usan datos
masivos para adaptar sus productos y servicios a las necesidades de sus
clientes, optimizar operaciones e infraestructuras, y encontrar nuevos
campos de negocio.
2.Deportes: optimización del rendimiento. Dispositivos como los smart
watches registran automáticamente datos como el consumo de calorías o
los niveles de acondicionamiento físico.
3. Salud pública: codificación de material genético. Por ejemplo, existen
plataformas de análisis del Big Data que se dedican a descodificar cadenas
de ADN para comprender mejor las enfermedades y encontrar nuevos
tratamientos.
4. Nuevas tecnologías: desarrollo de dispositivos autónomos. El análisis
de datos masivos puede contribuir a mejorar máquinas y dispositivos, y
hacerlos más autónomos. Un ejemplo son los coches inteligentes.
5. Seguridad: detección y prevención de crímenes. Los cuerpos de
seguridad usan el Big Data para localizar a criminales o prevenir actividades
delictivas como los ataques cibernéticos.
4 pasos clave para subirse al Big Data
•En primer lugar, los datos. En un entorno donde los datos están
explosionando, su disponibilidad no parece ser el problema. Lo que
debería preocuparnos es más bien ser capaces de mantener su
calidad, y saber manejarlos y explotarlos de forma correcta.
•Para ello, se necesitan las herramientas analíticas adecuadas, lo
que tampoco representa una barrera para las empresas al día de
hoy, debido a la gran disponibilidad en el mercado de herramientas
y plataformas tanto propietarias como de código abierto.
•Lo que nos lleva de lleno al tercer activo fundamental, que es el
factor humano. Disponer en nuestra organización de
los profesionales adecuados, como científicos de datos, pero
también de expertos en las implicaciones legales de la gestión de los
datos y de su privacidad, se perfila como el desafío más importante.
•Sin embargo, dotarse de estos tres activos y ponerlos a trabajar
tampoco nos asegurará el éxito con el Big Data. Para ser verdaderas
empresas data driven, necesitaremos llevar a cabo una
transformación radical de nuestros procesos y cultura empresarial,
para hacer que los datos estén verdaderamente al centro de
nuestra compañía, y conseguir que todos los departamentos, desde
TI hasta la alta dirección, asuman este nuevo enfoque.
Los retos del Big Data
•La tecnología: las herramientas Big Data como Hadoop
no son tan fáciles de administrar y requieren profesionales de datos
especializados además de importantes recursos para el mantenimiento.
•La escalabilidad: un proyecto de Big Data puede crecer con grande
velocidad, por lo cual una empresa tiene que tenerlo en cuenta a la
hora de asignar los recursos para que el proyecto no sufra
interrupciones y el análisis sea continuo.
•El talento: los perfiles necesarios para el Big Data escasean y las
empresas se encuentran frente al reto de encontrar a los
profesionales adecuados y, al mismo tiempo, de formar a sus
empleados sobre este nuevo paradigma.
•Los actionable insights: frente a la cantidad de datos, el reto
para una empresas es identificar objetivos de negocio claros y
analizar los datos apropiados para alcanzarlos.
•La calidad de datos: como hemos visto anteriormente es
necesario mantener a los datos limpios para que la toma de
decisión se base en datos de calidad.
•Los costes: los datos seguirán creciendo, por lo cual es importante
dimensionar correctamente los costes de un proyecto de Big Data,
teniendo en cuenta tanto las instalaciones y personal propio como
la contratación de proveedores.
•La seguridad: finalmente, es necesario mantener seguro el acceso
a los datos, lo que se consigue con autenticación de usuarios,
restricciones de acceso, cifrado de datos en transito o almacenados
y cumpliendo las principales normativas de protección de datos .
Ciclo de vida de los datos
El ciclo de vida de los datos es una secuencia de
etapas por las que pasan los datos a lo largo de toda
su vida útil.
Los datos se separan en fases en función de
diferentes criterios, y pasan por estas etapas a medida
que completan diferentes tareas o cumplen ciertos
requisitos.
El ciclo de vida de los datos abarca todo el periodo de
tiempo que los datos existen en una organización,
desde la generación de los datos hasta su eliminación
o reutilización a través de diferentes
tipos de repositorios de investigación.
7 fases de ciclo de vida de los datos
1. Generación o captura
2. Recolección de datos
3. Mantenimiento y procesamiento de datos
4. Uso de los datos
5. Intercambio de datos
6. Archivo de datos
7. Destrucción de los datos
Machine Learning
Es una rama científica de la inteligencia artificial que
permite que las computadoras adquieran conocimiento
y mejoren de forma progresiva la realización de tareas
y el análisis de datos para los que han sido destinados
sin recibir una programación explicita.
Aprendizaje Supervisado
El aprendizaje del tipo supervisado se refiere a un modelo
específico de Machine Learning en el cual el proceso de
generación de conocimiento se realiza con un grupo de
ejemplos o datos etiquetados en los que los resultados
que arroja la operación son conocidos previamente.
Aprendizaje No Supervisado
Otro de los tipos de machine learning es el conocido
como Aprendizaje No Supervisado. En el cual se
incluyen conjuntos de datos sin etiquetar en los que no
se conoce previamente la estructura que estos
poseen.
Aprendizaje Reforzado
Otro modelo de Machine Learning es el que conocemos
como aprendizaje reforzado. Es un modelo diferente a
los tipos que explicamos anteriormente. Este tipo de
aprendizaje forma parte de lo que conocemos como
“Deep Learning” o aprendizaje profundo.
Algoritmos de regresión
Cuando se requieren realizar tareas de regresión, el
programa de machine learning debe realizar
estimaciones y comprender a profundidad las
relaciones existentes entre las variables que debe
estudiar.
Algoritmos Bayesianos