0% encontró este documento útil (0 votos)
25 vistas9 páginas

Modulo 2

El documento describe el proceso y las fases del análisis de datos, destacando la importancia de la preparación y recopilación de datos para convertirlos en información útil. Se detallan cinco fases: definición de objetivos, preparación de datos, recopilación, análisis e interpretación, cada una con ejemplos prácticos. Además, se menciona la relevancia de la estadística en el análisis de datos y se presentan diferentes tipos de gráficos para visualizar la información obtenida.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
25 vistas9 páginas

Modulo 2

El documento describe el proceso y las fases del análisis de datos, destacando la importancia de la preparación y recopilación de datos para convertirlos en información útil. Se detallan cinco fases: definición de objetivos, preparación de datos, recopilación, análisis e interpretación, cada una con ejemplos prácticos. Además, se menciona la relevancia de la estadística en el análisis de datos y se presentan diferentes tipos de gráficos para visualizar la información obtenida.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

MODULO 2: Proceso y fases de data

analytics
2.1. EL PROCESO

EL RECORRIDO DEL DATO A LA INFORMACIÓN


Para que un simple conjunto de datos se convierta en información útil que ayude a alcanzar
un objetivo, se requiere de un proceso compuesto por distintas fases. La disciplina de Data
science se centra fundamental en las fases de Preparación y Recopilación con el objetivo de
proporcionar material de calidad válido para que Data analytics lo analice en profundidad y lo
pueda interpretar adecuadamente. Continua este módulo y descubre la importancia de cada
una de las fases que componen el proceso.

Proceso para convertir datos en información

2.2. FASE 1: OBJETIVOS


2.2 FASE 1: DEFINIR LOS OBJETIVOS

La fase de objetivos comienza definiendo cuál es la finalidad del análisis, qué


información se quiere conseguir, qué se quiere investigar y cuál es la mejor forma de
conseguirlo.

Es el momento de identificar qué datos se necesitan para alcanzar el objetivo, de


dónde proceden, cómo conseguirlos, posibles usos, etc. Además, es importante
evaluar los medios disponibles: infraestructuras, recursos, herramientas tecnológicas,
etc.

Ejemplo:
Un negocio textil quiere mejorar la gestión de mercancías y excedentes. Le gustaría conocer
la evolución de las ventas para adecuar, en base a esta información, el volumen de
existencias. Para conseguirlo puede empezar definiendo qué información necesita para
estimar las ventas que espera realizar, con qué herramienta realizar el análisis, cuáles son los
datos que aportan información sobre las ventas, etc.

2.3. FASE 2: PREPARACIÓN


2.3 FASE 2 PREPARACIÓN

ESTRUCTURAR Y ORGANIZAR DE LOS DATOS


Una vez identificado el objetivo del análisis, se inicia la fase de preparación. En esta
etapa data science se encarga de definir con más precisión los datos que se utilizarán
para obtener la información. Determina, por ejemplo:

 Cuál es la estructura que tiene cada uno de los datos a analizar.


 En qué sistema de almacenamiento permanecerán: base de datos, hoja de
cálculo, etc.
 Cómo se organiza el almacenamiento. Por ejemplo, en una base de datos
con diversas tablas, cómo se relacionan las tablas entre sí, etc.

Ejemplo:
Al negocio textil le podría interesar analizar datos como el tipo de prenda, el color, la talla, la
fecha de la venta, el precio o los pedidos realizados. Cada dato necesitaría ser identificado
con un nombre concreto, tener definida una estructura interna, establecido dónde se
almacena en la base de datos, etc. De esta forma se podrán utilizar correctamente al realizar
los análisis que necesite.

DEFINIR EL FORMATO DE LOS DATOS ESTRUCTURADOS


Dentro del conjunto de datos estructurados, durante la fase de preparación es
fundamental asignar a los datos un formato adecuado para procesar, analizar e
interpretar correctamente la información que contienen. El formato o estructura
interna se determina en función de qué tipo de dato se trate.

Ejemplo:
En el negocio textil uno de los datos a analizar es el precio de venta de las prendas.
Para poder analizar correctamente este dato, cuantitativo continuo, necesita tener un
formato numérico con decimales para que el valor que representa se defina
correctamente. Si el formato que se asigna al dato no tuviera decimales, el análisis no
sería correcto porque se perdería parte de la información que contiene.

Estos son algunos ejemplos de diversos tipos de formatos:

ORGANIZAR EL ALMACENAMIENTO DE LOS DATOS

La fase de preparación también requiere organizar los datos adecuadamente para que
el análisis resulte menos costos y carezca de errores. Una organización eficiente de
los datos procura, por ejemplo:

 Evitar que los datos se dupliquen. Los datos repetidos necesitan más
espacio de almacenamiento y analizarlos requiere una tarea de mayor
complejidad.
 Asegurar la integridad de los datos y su precisión. La falta de consistencia
en los datos almacenados provoca por ejemplo que el valor de los datos
difiera dependiendo de dónde se recuperen.

Ejemplo:
El negocio textil organiza la información de tal forma que el nombre del cliente
aparece tanto en los datos personales como en los datos de pedidos realizados. En
este caso, el nombre del cliente podría repetirse tantas veces como pedidos realice y
duplicar la información innecesariamente. Además, los nombres en los pedidos
podrían tener un valor diferente al que aparece en los datos del cliente.

2.4. FASE 3: RECOPILACIÓN


2.4 FASE 3 RECOPILACIÓN

RECOLECTAR Y REVISAR LOS DATOS

En esta fase del proceso se recopilan todos los datos en los sistemas de
almacenamiento elegidos. Para asegurar la calidad de la información que se obtenga
de ellos, es importante verificar que los datos están completos, que son fiables, que
no están duplicados, etc.

Ejemplo:
Imagina que uno de los datos que se necesita analizar es el modelo de la prenda textil
vendido por la empresa. Si este dato está vacío, incompleto o no es correcto porque
no corresponde con ningún modelo, entonces debería descartarse porque no es válido
para el análisis.

NUTRIR DE DATOS

En esta fase del proceso se realiza la recogida, limpieza y validación de datos. El


objetivo es alimentar los sistemas de almacenamiento que contendrán los datos para
analizarlos después. Para obtener resultados precisos, significativos y fiables a partir
de los datos almacenados, es necesario realizar una serie de tareas con ellos. Pulsa
en los desplegables y descubre más información sobre las tareas realizadas en esta
fase. Después pulsa en el botón ‘SIGUIENTE’ para continuar.

Captura
Los datos en bruto que se recopilan son los “ingredientes” con los que se elaborará el análisis.
Pueden proceder de multitud de fuentes: software de negocios, encuestas, departamentos de
administración o contabilidad, etc.
Los formatos de los archivos en los que se reciben los datos también pueden ser diversos:
hojas de cálculo con formato “xls” o de texto con formato “csv”, entre otros.
2.5 FASE 4: ANÁLISIS
2.5 FASE 4 ANÁLISIS

ANALIZAR LOS DATOS

Data analytics inicia sus labores a partir de esta fase de análisis. Se encarga en
esencia de estudiar los datos recolectados y que están debidamente organizados tras
las fases desarrolladas por data science. En esta etapa se procesan los datos para
ordenar según los criterios de cada análisis, filtrar, establecer relaciones que
identifiquen tendencias o que permitan realizar predicciones en base a ellos. Para
conseguirlo, se aplican conocimientos basados en la estadística para resumir,
examinar, describir la información que aportan los datos e, incluso, realizar
estimaciones de lo que se puede esperar en el futuro.

Ejemplo:
Al analizar los datos, la empresa textil puede obtener información detallada del gasto
realizado por la clientela en los últimos meses, estimar cuánto gastará en la próxima
campaña, etc.

LA ESTADÍSTICA Y DATA ANALYTICS


Accede al siguiente vídeo para empezar a conocer por qué la estadística es una
herramienta fundamental en data analytics, descubrirás que se lleva utilizando desde
hace siglos y que en la actualidad está presente en más procesos de lo que te puedes
imaginar.

VIDEO

¿Conoces la estadística? Es la ciencia encargada de recolectar, agrupar, analizar,


interpretar y representar un conjunto de datos con el fin de explicar y predecir algún
fenómeno.

El ser humano la ha utilizado a lo largo de toda la historia. Por ejemplo, en el antiguo


Egipto, los faraones ordenaban el estudio de la población y las riquezas para planificar
la construcción de las pirámides o el reparto de las tierras.

El uso de la estadística siempre ha estado presente y hoy en día más que nunca. Por
ejemplo, en medicina permite comprender la causa de las enfermedades, realizar
pronósticos sobre su evolución o comprobar la eficacia de los medicamentos.

Se utiliza incluso para mejorar y potenciar nuestras actividades de ocio. Plataformas


como Netflix recurren a la estadística para, por ejemplo, conocer qué series o
películas tendrán más éxito o qué recomendar a cada persona según sus
preferencias.

Lo cierto es que la estadística es una herramienta muy utilizada en las investigaciones


de campos tan diversos como la economía, educación, psicología, biología,
física, marketing y en otros muchos.
Según el objetivo que se persiga y el enfoque del análisis, la estadística se
puede diferenciar en dos tipos.

Estadística descriptiva
Emplea el recuento, ordenación, clasificación, análisis y representación de un
conjunto de datos obtenidos por la observación. Su objetivo principal es cuantificar,
resumir y describir las características de los datos para comprender cómo se
estructuran y cuál es su comportamiento.
Ejemplo: En una clase, el análisis de las notas obtenidas en el último examen puede
proporcionar información muy útil: cuántas personas suspenden o aprueban, cuál es
la nota más baja o la más alta, etc. Disponer de estos resultados le ayuda al profesor
a comprender cómo han respondido sus alumnos ante la prueba y le ayudará a poner
en marcha las acciones que considere necesarias.

Estadística inferencial
No se limita a la descripción, sino que va más allá. El objetivo del estudio es deducir
características generales de un conjunto de datos a partir del análisis de una parte de
ellos. Deduce conclusiones generales para realizar previsiones y predecir el
comportamiento de ciertos fenómenos.
Ejemplo: Un candidato político realiza una encuesta a parte del electorado para
estimar cuántos votos puede obtener en las próximas elecciones. En base a sus
resultados el candidato puede decidir su estrategia electoral para atraer a más
votantes.

Ambos tipos de estadística son importantes y útiles, se utilizan en diversas


situaciones y contextos para analizar con más profundad los hechos y tomar
decisiones de manera más eficiente.

2.7 FASE 5: INTERPRETACIÓN


2.7 FASE 5 INTERPRETACIÓN

VISUALIZA, COMPRENDE Y EXPLICA LA INFORMACIÓN

La visualización de los resultados ayuda a identificar con más facilidad patrones,


tendencias y relaciones que existen entre los datos, permitiendo de esta
forma, comprender mejor la información obtenida con el análisis. Mediante una
representación gráfica es posible explicar y compartir con claridad las conclusiones,
con otras personas, para que lo puedan comprender también.

Ejemplo:
Visualizando los resultados obtenidos, el equipo de marketing de una empresa puede
destacar cuáles son los productos más vendidos y comprender la evolución y
previsiones de las ventas. Al explicar con claridad la información a otros equipos les
ayuda a comprender también la situación y tomar decisiones más acertadas al
respecto.

GRÁFICO DE LÍNEA

Este gráfico es útil para mostrar cómo se comportan valores cuantitativos a lo largo
del tiempo. En este caso, el valor que indica la variación temporal se representa en el
eje horizontal (también conocido como eje X), y el valor numérico analizado se
representa en el eje vertical (también conocido como eje Y). El dato cuantitativo que
varía se representa mediante puntos conectados por una línea que delimita el inicio,
la duración y el fin del período temporal.
Este tipo de gráfica se emplea para representar tendencias temporales en datos como
peso, velocidad, presión sanguínea, etc.

Ejemplo:
Mediante un gráfico de línea se puede representar el cambio de la temperatura a lo
largo del día. El eje horizontal representa las horas del día y el vertical la temperatura
de cada una de ellas. La representación permite observar cómo la temperatura es
más alta durante la tarde y se desploma en la madrugada.

DIAGRAMA DE BARRAS

El diagrama de barras se utiliza para representar el conteo de frecuencia o cuántos


datos pertenecen a una misma categoría. Los datos analizados son de
tipo cualitativos o cuantitativos discretos para permitir la separación en diferentes
categorías. El gráfico está compuesto por barras representadas por rectángulos del
mismo ancho, pero de diferentes alturas. Cada barra representa una categoría y la
altura de cada una corresponde al total de datos que pertenecen a ella. De esta forma
se visualizan con claridad las diferencias entre las categorías y facilita la comparación
entre ellas.

Ejemplo:
Utilizando un gráfico de barras se puede representar el número de valoraciones
recibidas al consultar la calidad del servicio. Las barras representan las categorías en
las que se clasifican las respuestas: pésimo, malo, regular, bueno, excelente. La altura
de cada barra indica cuántas valoraciones recibió cada categoría.
GRÁFICO CIRCULAR

El gráfico circular permite visualizar las relaciones de las partes de un dato cualitativo
con respecto al total. El gráfico se divide en áreas o sectores, cada uno de ellos
representa el conteo o el porcentaje de una de las partes.
Se utiliza con mucha frecuencia para mostrar proporciones y porcentajes ya que
reflejan con claridad la relación de cada parte con respecto al resto. En este caso, la
información que aporta el valor concreto de cada porción es menos relevante.

Ejemplo:
Un gráfico circular puede representar el reparto de alumnos en un colegio según el
nivel de enseñanza. Con la representación se muestra con facilidad que la mitad del
alumnado pertenece al nivel de enseñanza primaria y el resto se divide entre infantil y
secundaria.

Ten en cuenta que…


El gráfico circular aporta menos detalle en la información cuando los valores de las relaciones
son muy similares. En este caso, el diagrama de barras permite visualizar con más facilidad
las diferencias entre las distintas partes. Esto se debe a que la vista compara con más
facilidad longitud de barras que áreas de un gráfico circular.

2.7 FASE 5: INTERPRETACIÓN


HISTOGRAMA

Un histograma representa visualmente la forma de los valores, o la distribución, de un


dato cuantitativo continuo. En el eje horizontal se muestran mediante barras los
valores de las agrupaciones de datos, cada barra corresponde a un intervalo o clase.
En el eje vertical, la altura de la barra indica el conteo de frecuencia o cuántos datos
tienen valores dentro del intervalo asociado a cada barra.
En esta representación es necesario determinar el intervalo de valores de datos de
cada barra. La forma de la gráfica puede variar en función de los intervalos
considerados, lo cual, permite representar la información según resulte más relevante
para el análisis.

Ejemplo:
Mediante un histograma se representa las edades de las personas en una comunidad
de vecinos. En el ejemplo de la izquierda, las edades se agrupan en rango de 10 en 10
años mostrando la cantidad de personas con edades en cada década. En el ejemplo
de la derecha, los rangos de edades analizados son de 20 años, el intervalo es por
tanto el doble que antes.

También podría gustarte