Los seis pasos del proceso de análisis de datos que has estado aprendiendo en este programa son: preguntar,
preparar, procesar, analizar, compartir y actuar.
Los ecosistemas de datos se componen de varios
elementos que interactúan entre sí para producir, gestionar, almacenar,
organizar, analizar y compartir datos. Estos elementos incluyen hardware y
herramientas de software y las personas que los usan
En primer lugar, es la diferencia entre
científicos de datos y analistas de datos. Es fácil confundirlos, pero
lo que hacen en realidad es muy diferente. La ciencia de datos se define como
crear nuevas formas de modelar y entender lo desconocido
mediante el uso de datos sin procesar. He aquí una buena forma de pensarlo. Los científicos de datos crean nuevas
preguntas
con los datos, mientras que los analistas encuentran respuestas a las preguntas existentes
y crean información a partir de las fuentes de datos
El análisis computacional de datos, en los términos
más sencillos, es la ciencia de los datos. Es un concepto muy amplio que abarca
todo, desde el trabajo de gestión y el uso de los datos hasta las herramientas y los métodos
que los trabajadores de datos usan todos los días. Así que, cuando pienses en datos,
análisis de datos y el ecosistema de datos, es importante
entender que todo esto encaja en la definición de
análisis computacional de datos.
Cualquiera sea el problema, una vez definido,
un analista de datos encuentra datos, los analiza y los usa para descubrir tendencias,
patrones y relaciones. A veces, la estrategia basada en datos
se sustenta en lo que ha funcionado en el pasado. Otras veces, sirve para guiar un negocio a fin de que
se ramifique en una dirección totalmente nueva.
la toma de decisiones basada en datos
puede ser tan poderosa hasta el punto de lograr que todos los
métodos comerciales se vuelvan obsoletos. Por ejemplo, los datos ayudaron a las empresas
a alejarse completamente de los teléfonos con cable y a reemplazarlos
por teléfonos móviles. Al asegurarse de que los datos se compilen
en cada estrategia empresarial, los analistas de datos desempeñan un papel fundamental
en el éxito de sus empresas
1. Hacer preguntas y definir el problema.
2. Preparar datos al recopilar y almacenar la información.
3. Procesar los datos al limpiar y comprobar la información.
4. Analizar los datos para encontrar patrones, relaciones y tendencias.
5. Compartir datos con tu audiencia.
6. Actuar en función de los datos y utilizar los resultados del análisis.
Datos + conocimiento empresarial = misterio resuelto
Combinar datos con conocimiento empresarial, además de un toque de instinto, será una parte habitual de tu
proceso como analista de datos junior.
Además, intenta hacerte estas preguntas sobre un proyecto para encontrar el equilibrio perfecto:
¿Qué tipo de resultados se necesitan?
¿A quién se informará?
¿Estoy respondiendo la pregunta que se está haciendo?
¿Con qué rapidez hay que tomar una decisión?
ciclo de vida del análisis de datos,. Los datos pasan por varias fases a medida que se crean, consumen, prueban,
procesan y reutilizan.
El proceso que se presenta como parte del certificado de Google Data Analytics es uno que te resultará valioso a
medida que avances en tu carrera profesional:
1. Preguntar: Desafío empresarial/objetivo/pregunta
2. Preparar: Generación, recopilación, almacenamiento y administración de datos
3. Procesar: Limpieza de datos/integridad de datos
4. Analizar: Exploración, visualización y análisis de datos
5. Compartir: Comunicación e interpretación de los resultados
6. Actuar: Uso de tus conocimientos para resolver el problema
Comprender este proceso, y todas las iteraciones que ayudaron a hacerlo popular, será una parte importante a la
hora de guiar tu propio análisis y tu trabajo en este programa.
Las destrezas analíticas son
cualidades y características asociadas con la resolución
de problemas usando hechos. Hay mucho que decir
de las destrezas analíticas, pero nos centraremos en
cinco puntos esenciales. Curiosidad,
comprensión del contexto, mentalidad técnica, diseño
de datos y estrategia de datos.
El pensamiento analítico
consiste en identificar y definir un problema, y luego resolverlo mediante el uso de datos de manera organizada y paso a
paso.
Los cinco aspectos clave del
pensamiento analítico son: la visualización,
la estrategia, la orientación hacia los problemas, la correlación y, por último, el pensamiento con perspectiva global
y orientado hacia los detalles.
algunas
de las preguntas que los analistas de datos hacen cuando están
en busca de una solución. Esta es una que
surgirá a menudo: ¿Qué es la causa
raíz de un problema? Una causa raíz es la razón
por la que se produce un problema.
Una forma sencilla de
entender las causas raíces es mediante el
proceso llamado los Cinco porqués.
Otra pregunta que suelen
hacerse los analistas de datos es: ¿en qué punto de nuestro proceso
se encuentran los déficits? Para ello, muchas personas recurrirán a lo que se denomina análisis de déficits.
El enfoque general
del análisis de déficits consiste en comprender dónde estás ahora en comparación con el lugar
donde quieres estar.
Una tercera pregunta que se hacen
mucho los analistas de datos es: ¿Qué no hemos tenido en cuenta antes?
analicemos el concepto
de la toma de decisiones basada en datos y por qué es más probable produzca
resultados exitosos. Tal vez recuerdes que la toma de decisiones
basada en datos implica el uso de hechos para guiar la estrategia empresarial. Los analistas de datos pueden aprovechar
el poder de
los datos para hacer todo tipo de cosas asombrosas. Gracias a los datos, pueden obtener información
valiosa, verificar sus teorías o suposiciones, comprender
mejor las oportunidades y los desafíos, apoyar un objetivo,
ayudar a elaborar un plan y mucho más. En el mundo de los negocios, la toma de decisiones basada en datos puede
mejorar
los resultados de muchas formas diferentes.
. El ciclo de vida de los datos consiste en
planificar, capturar, gestionar, analizar, archivar y destruir.
. Durante la planificación, una empresa decide
qué tipo de datos necesita, cómo se gestionarán
a lo largo de su ciclo de vida, quién será responsable de ellos
y cuáles son los resultados óptimos.
La siguiente fase es cuando se capturan los datos. En esta fase, se recopilan datos
de diversas fuentes y se incorporan en la organización.
. Ahora que hemos capturado nuestros datos, pasaremos a la siguiente fase del
ciclo de vida de los datos: la gestión. Aquí hablamos de cómo cuidamos
nuestros datos, cómo y dónde los almacenamos, qué herramientas usamos para protegerlos y
mantenerlos seguros, y qué medidas adoptamos para asegurarnos
de que se conserven correctamente. Esta fase es muy importante para la limpieza
de los datos, de la cual hablaremos más adelante. A continuación, llegó el momento de analizar tus datos.
Aquí es donde realmente se destacan los analistas de datos. En esta fase, los datos se usan para resolver
problemas, tomar decisiones importantes y respaldar los objetivos empresariales.
Mientras seguimos avanzando por el ciclo de vida
de los datos, ahora entramos en la fase de archivo. Archivar significa almacenar datos en un lugar
donde todavía están disponibles, pero es poco probable que se vuelvan a usar.
Y, finalmente, el último paso del ciclo
de vida de los datos: la fase de destrucción
. Para destruirlos, la compañía
usaría un software de destrucción de datos seguro. En caso de haber archivos impresos,
se triturarían. Esto es importante para proteger
la información privada de una empresa, así como los datos privados sobre sus clientes
Variaciones del ciclo de vida de los datos
Aprendiste que el ciclo de vida de los datos consta de seis etapas. Aquí hay un resumen:
1. Planificar: Decide qué tipo de datos se necesitan, cómo se gestionarán y quién será responsable de ellos.
2. Capturar: Recopila o reúne datos de varias fuentes distintas.
3. Gestionar: Cuida y brinda mantenimiento a los datos. Esto incluye determinar cómo y dónde se almacenan
y las herramientas utilizadas para hacerlo.
4. Analizar: Utiliza los datos para resolver problemas, tomar decisiones y respaldar los objetivos
empresariales.
5. Archivar: Mantén almacenados los datos relevantes para referencias futuras y a largo plazo.
6. Destruir: Elimina los datos almacenados y todas las copias compartidas.
. En resumen, aunque los ciclos de vida de los datos varían, existe un principio de gestión de datos universal: se
debe controlar cómo se manejan los datos para que sean precisos y estén seguros y disponibles para satisfacer las
necesidades de su organización.
Comencemos con el primer paso del análisis de datos: preguntar. En esta fase, hacemos dos cosas. Definimos el
problema que se pretende resolver y nos aseguramos de que entendemos plenamente las expectativas de los
interesados. Los interesados tienen una participación en el proyecto. Son personas que han dedicado tiempo y recursos
a un proyecto, y están interesadas en el resultado. Definir un problema significa que observas el estado actual e
identificas cómo difiere del estado ideal. Normalmente, hay un obstáculo que debemos eliminar o un error que tenemos
que corregir
Otra parte importante de la fase de preguntar es entender las expectativas de los interesados. En este punto, el primer
paso es determinar quiénes son los interesados. Podría incluir al gerente, un patrocinador ejecutivo o tus socios de
ventas. Puede haber muchos interesados. Sin embargo, lo que todos tienen en común es que ayudan a tomar decisiones,
influyen en las acciones y estrategias, y tienen objetivos específicos por cumplir
Comunicarse con los interesados es clave para mantener el nivel de compromiso y la concentración en todo momento
durante el proyecto.
Después de eso, continuaremos con el paso de preparación del proceso de análisis de datos. En este punto, los analistas
de datos recopilan y almacenan datos que usarán para el próximo proceso de análisis.
. A continuación, viene el paso del proceso. En este, los analistas de datos encuentran y eliminan cualquier error e
inexactitud que puedan interferir con los resultados. Esto suele implicar la limpieza de los datos, su conversión a un
formato más útil, combinar dos o más conjuntos de datos para lograr que la información sea más completa y eliminar los
valores atípicos, que son puntos de datos que podrían sesgar la información
Luego, será el momento del análisis. Analizar los datos recopilados implica el uso de herramientas para transformar y
organizar esa información a fin de poder extraer conclusiones útiles, hacer predicciones e impulsar una toma de
decisiones fundamentada
El próximo curso trata sobre la fase de compartir. Aprenderás la manera en que los analistas de datos interpretan
resultados y los comparten para ayudar a los interesados a tomar decisiones efectivas basadas en datos. En la etapa de
compartir, la visualización es el mejor amigo del analista de datos.
Como fase final del análisis de datos, está el paso de actuar. Llegó ese emocionante momento en que la empresa toma
toda la información que tú, el analista de datos, has proporcionado y la pone a trabajar para resolver el problema inicial
del negocio y actuar según lo que tú aprendiste durante este programa.
. Una fórmula es un conjunto de instrucciones que realiza un cálculo específico con los datos de una hoja de cálculo.
Una función es un comando preestablecido que realiza automáticamente un proceso o tarea específicos con los datos de
una hoja de cálculo.
La siguiente herramienta de análisis de datos se denomina lenguaje de consulta.
llamado lenguaje de consulta estructurado, mayormente conocido como SQL.
Las hojas de cálculo estructuran los datos de una manera comprensible y te permiten hacer lo siguiente:
Recopilar, almacenar, organizar y ordenar información
Identificar patrones y reunir los datos de una manera que se adapte a cada proyecto de datos específico
Crear excelentes visualizaciones de datos, como gráficos y tablas.
Funciones de los lenguajes de consulta:
Hacen que los analistas puedan aislar información específica de unas bases de datos
Facilitan el aprendizaje y la comprensión de las solicitudes realizadas a las bases de datos
Permiten que los analistas seleccionen, creen, agreguen o descarguen datos de una base de datos para su
análisis
Funciones de estas herramientas:
Convierten los números complejos en una historia que las personas pueden entender
Ayudan a los interesados a sacar conclusiones que permiten tomar decisiones informadas y elaborar
estrategias empresariales eficaces
Tienen múltiples características
- Con la sencilla función de arrastrar y soltar de Tableau, los usuarios pueden crear gráficos interactivos en paneles
y
hojas de trabajo
- Looker se comunica directamente con una base de datos, con lo cual puedes conectar tus datos directamente a la
herramienta de visualización que elijas
Hojas de cálculo Bases de datos
Almacenes de datos a los que se accede mediante un
Aplicaciones de software
lenguaje de consulta (por ejemplo, SQL)
Estructurar datos en formato de filas y columnas Estructurar datos usando reglas y relaciones
Organizar la información en celdas Organizar la información en colecciones complejas
Proporcionar acceso a una cantidad limitada de datos Proporcionar acceso a grandes cantidades de datos
Ingreso manual de los datos Ingreso de datos estricto y coherente
Generalmente, un usuario a la vez Múltiples usuarios
Controlado por el usuario Controlado por un sistema de gestión de bases de datos
No te preocupes si tu nombre
no cabe en la celda, siempre puedes hacer columnas
más anchas si es necesario. Todo lo que tienes que hacer
es hacer clic y arrastrar el borde derecho de la columna
hasta que tu nombre encaje. O puedes usar la
función de ajuste de texto, que configurará las celdas para
que cambien automáticamente su altura para permitir que el
texto de la celda se ajuste. Para usar esta función, selecciona las celdas, columnas o filas con texto, luego utiliza el menú
de formato para ver las opciones
de ajuste de texto. Se configura automáticamente para permitir que el texto se desborde
fuera de la celda. Pero puedes ajustar el texto en su lugar para que todo
el texto sea visible. La opción de clip
cortará el texto en la celda para que solo el texto
que se ajuste sea visible.
. Estas etiquetas de columna
generalmente se llaman atributos. Un atributo es una
característica o calidad de los datos que se utilizan para etiquetar una
columna en una tabla.
En un conjunto de datos, una fila también
se llama observación. Una observación incluye
todos los atributos de algo contenido
en una fila de una tabla de datos.
Digamos que queremos
organizar nuestros datos según la cantidad de hermanos
que tiene cada persona. Hay una manera sencilla de hacerlo. Primero, necesitaremos seleccionar
todas nuestras columnas con datos para que todos
se reorganicen juntos. Luego podemos ir a nuestro menú de datos. Aquí tenemos algunas opciones. Seleccionemos el
rango de clasificación. Esto nos permitirá elegir cómo
organizar la columna. A continuación, elegiremos de la A a la Z, lo cual organizará
nuestros números en orden de menor a mayor. Ahora, queremos tener cuidado
con la fila del encabezado, que es la palabra hermanos, el atributo de esta columna. Marcaremos esta casilla. Esto
asegura que la palabra
hermanos se quede en su lugar. Ahora estamos listos para ordenar. Voila, acabamos de reorganizar nuestros datos
clasificándolos desde la cantidad más pequeña
hasta la más grande.
Una consulta es una solicitud de datos o información proveniente
de una base de datos.
En primer lugar, vamos a seleccionar
nuestro conjunto de datos. Usaremos un asterisco para seleccionar todos los
datos de la tabla. Con esa consulta simple, la base de datos llama a
la tabla que necesitamos. Magia. Vamos a agregar Dónde a nuestra consulta para mostrar cómo
cambian los datos que obtenemos. Puedes ver que los datos
ahora solo muestran películas que están en
el género de acción.
Ejemplo de una consulta
Así es como aparecería una simple consulta en BigQuery, un almacén de datos de Google Cloud Platform.
La consulta anterior usa tres comandos para localizar clientes que se llaman Tony:
1. ELEGIR (SELECT) la columna denominada nombre (first_name)
2. DESDE (FROM) una tabla denominada nombre_del_cliente (customer_data) (en un conjunto de datos
denominado nombre_del_cliente [customer_data]) (el nombre del conjunto de datos siempre va seguido de
un punto y, a continuación, del nombre de la tabla).
3. Pero solo se devuelven los datos DONDE (WHERE) el primer_nombre (first_name) es Tony
Los resultados de la consulta pueden ser similares a los siguientes:
first_name
Tony
first_name
Tony
Tony
Todos tienen inconvenientes que explorar, preguntas que responder o problemas que resolver. Es fácil que estos
elementos se mezclen. Aquí hay una manera de aclararlos cuando hablamos de ellos en el análisis de datos. Un problema
(Issue) es un asunto o tema para investigar. Una pregunta (Question) está diseñada para descubrir información y un
problema (problem) es un obstáculo o complicación que es necesario resolver.
Estas preguntas y problemas se convierten en la base de todo tipo de tareas empresariales, que ayudarás a resolver
como analista de datos. Una tarea empresarial es la pregunta o el problema que el análisis de datos responde para las
empresas.
. Conocemos el problema, el clima impredecible dificultaba que el zoológico anticipara las necesidades de personal.
Quizás la tarea empresarial podría ser algo así como analizar los datos meteorológicos de la última década para
identificar patrones predecibles. Luego, los analistas de datos podrían planificar la mejor manera de recopilar, analizar y
presentar
los datos necesarios para resolver esta tarea y cumplir con los objetivos de los zoológicos. Luego, utilizando datos, el
zoológico podría tomar decisiones informadas sobre su personal diariamente.
La toma de decisiones basada en datos
es cuando los hechos que se han descubierto a través del análisis de datos se utilizan para guiar
la estrategia empresarial. La forma más sencilla de pensar
en la toma de decisiones es elegir entre
las consecuencias, buenas, malas o una
combinación de ambas. En nuestro ejemplo del zoológico, el zoológico tenía los datos
necesarios para tomar una decisión informada que
resolviera su problema. Pero, ¿y si hubieran tomado
esta decisión sin datos? Digamos que solo
confiaban en la observación y la memoria para rastrear el clima y generar
cronogramas para el personal. Bueno, ya sabemos que eso no habría resuelto
su problema a largo plazo. El análisis de datos les brindó
la información necesaria para encontrar la mejor solución
posible para su problema. Ese es el poder de los datos. La observación y la intuición son herramientas poderosas
para la toma de decisiones, pero solo pueden llevarnos
tan lejos cuando tomamos decisiones basadas solo en la observación
y en las percepciones viscerales, solo vemos una
parte del panorama. Los datos nos ayudan a ver
todo el panorama. Con los datos tenemos un panorama completo del
problema y sus causas, lo que nos permite encontrar nuevas y sorprendentes soluciones que nunca antes
hubiéramos podido ver.
. Aprendamos qué significa equidad cuando hablamos de análisis de datos y por qué es importante que, como analista,
lo tengas en cuenta. Equidad significa asegurarse de que tu análisis no introduzca ni refuerce sesgos.
. A veces, las conclusiones basadas en datos pueden ser verdaderas e inequitativas.
. Es importante pensar en la equidad desde el momento en que empiezas a recopilar datos para una prueba empresarial
hasta el momento en que presentas tus conclusiones a las partes interesadas.