1.
DATOS
Voluntarios: Los datos dados voluntariamente son información proporcionada
explícitamente por los consumidores en una interacción directa con la empresa. Permite a
los profesionales de marketing identificar las necesidades, los deseos y los deseos de un
cliente.
Observados: Los expertos en marketing pueden aprender más sobre los comportamientos
y hábitos de los consumidores a través de la observación directa.
Deducidos: Los datos deducidos se recopilan sobre el usuario sin su entrada expresa,
generalmente generados sistemáticamente en función de los historiales de búsqueda, las
compras y la actividad de los medios sociales. Los datos deducidos se basan en
suposiciones bien informadas.
Formas de visualizar los datos
1. Para comparar dos conjuntos de datos. Utilice gráficos de líneas cuando la
cantidad de puntos de datos sea alta y desee mostrar una tendencia en los datos a lo
largo del tiempo.
Casos de uso para gráficos de líneas:
Las ventas trimestrales de una empresa durante los últimos cinco años.
El número de clientes por semana en el primer año de una nueva tienda minorista.
Cambios en el precio de una acción desde la apertura hasta la campana de cierre.
2. Los gráficos de columna se colocan de forma vertical. Para mostrar el valor
numérico de un punto de datos específico y comparar ese valor en categorías similares.
Casos de uso para gráficos de columnas:
Ingreso por país, como se muestra en el ejemplo del gráfico.
Las ventas del año pasado de las cuatro principales compañías automotrices en los
EE. UU.
Puntajes promedio de las pruebas de los estudiantes para cada una de las seis
clases de matemáticas.
3. Los gráficos de barras son similares a columnas, excepto que los datos se
muestran horizontalmente. Los gráficos de barras también permiten una comparación
sencilla entre varios puntos de datos. Las etiquetas de puntos de datos en el gráfico de
barras horizontal están en el lado izquierdo y son más legibles cuando la etiqueta
contiene texto en lugar de valores.
Casos de uso para gráficos de barras:
Producto interno bruto (PIB) de las 25 naciones con mayores ingresos.
El número de automóviles en un concesionario vendidos por cada representante
de ventas.
Calificaciones del examen para cada alumno en una clase de matemática.
4. Los gráficos circulares muestran partes de un todo. Cada porción, o segmento, del
“pastel”, representa un porcentaje del número total. La suma total de los segmentos
debe ser igual al 100%. Un gráfico circular muestra los diferentes valores de una
variable determinada.
Algunos casos de uso que ilustran la comparación de la información con un gráfico circular
incluyen:
Categorías de gastos anuales para una corporación (por ejemplo, alquiler,
administración, servicios públicos, producción)
Las fuentes de energía de un país (por ej., petróleo, carbón, gas, energía solar,
energía eólica)
Resultados de una encuesta para el tipo de película favorita (por ejemplo, acción,
romance, comedia, drama, ciencia ficción)
5. Los diagramas de dispersión son muy populares para las visualizaciones de
correlación o cuando desea mostrar la distribución, o todos los valores posibles, de una
gran cantidad de puntos de datos. Los diagramas de dispersión también son útiles para
demostrar el agrupamiento o identificar valores atípicos en los datos.
Algunos casos de uso que ilustran la visualización de la distribución de muchos puntos de
datos con un gráfico de dispersión incluyen:
Comparación de las expectativas de vida de los países con su PIB (Producto
Interno Bruto).
Comparación de las ventas diarias de helado con la temperatura exterior
promedio durante varios días.
Comparar el peso con la altura de cada persona en un grupo grande.
Discreto versus Continuo
¿Qué afirmación es una descripción precisa de variables discretas?
Son cuantitativas con un conjunto finito de valores.
La cantidad de empleados en cada departamento son datos discretos porque tiene una
cantidad limitada de valores posibles.
La temperatura dentro de la tienda es un dato continuo porque la temperatura puede
estar en un rango infinito de valores.
La distancia recorrida por una bicicleta en movimiento son datos continuos porque el
peso puede estar en un rango infinito de valores.
La cantidad de clientes que compraron bicicletas son datos discretos porque tienen
una cantidad limitada de valores posibles.
Datos Estructurados y No Estructurados
Datos Estructurados
Los datos estructurados representan entre el 10% y el 20% de los datos generados y tienen
tipos de datos y patrones claramente definidos que facilitan su almacenamiento y organización
en columnas y filas. Esta organización facilita la búsqueda y el análisis de datos estructurados.
Las fuentes de datos estructurados incluyen registros de ventas, sistemas de reserva de líneas
aéreas y control de inventario. Los datos estructurados generalmente se almacenan en bases
de datos relacionales como bases de datos de Lenguaje de Consulta Estructurado (SQL) o en
hojas de cálculo como Microsoft Excel.
Datos No Estructurados
Los datos no estructurados constituyen la mayoría de los datos generados, aproximadamente
el 80%, y no se pueden organizar en filas y columnas. Esto hace que los datos no estructurados
sean difíciles de buscar, administrar y analizar. Las fuentes de datos no estructurados incluyen
imágenes, archivos PDF, datos de sensores y publicaciones en medios sociales. Los datos no
estructurados generalmente se almacenan en una base de datos no relacional, también
conocida como base de datos NoSQL.
2. DATOS MASIVOS
Datos masivos (Big Data) es un término utilizado para describir los volúmenes masivos de datos
digitales generados, recopilados y procesados. El término datos masivos describe datos que se
mueven demasiado rápido, son simplemente demasiado grandes o demasiado complejos para
almacenarse, procesarse o analizarse con aplicaciones tradicionales de almacenamiento y
análisis de datos. Algunos ejemplos de datos masivos incluyen datos generados por
publicaciones en cuentas de medios sociales, como Facebook y Twitter, y las calificaciones
otorgadas a productos en sitios de comercio electrónico como el mercado de Amazon.
El volumen describe la cantidad de datos que se transporta y se almacena.
La veracidad es el proceso de evitar que los datos inexactos estropeen sus conjuntos de
datos
Canalizaciones de Datos
Los ingenieros de datos administran los datos a través de una canalización de datos. La
canalización de datos tiene tres etapas: ingestión, transformación y almacenamiento. Estas
excluyen etapas en cualquier análisis que deba realizarse.
ORDEN: Ingestión, Transformación, Almacenamiento, Análisis
APRENDIZAJE AUTOMATICO
Supervisado
Los algoritmos de aprendizaje automáticos supervisados son los más
utilizados para el análisis predictivo. El aprendizaje automático supervisado
requiere la interacción humana para etiquetar los datos leídos para un
aprendizaje supervisado preciso. En el aprendizaje supervisado, el modelo se
enseña con ejemplos mediante el uso de conjuntos de datos de entrada y
salida procesados por expertos humanos, generalmente científicos de datos. El
modelo aprende las relaciones entre los datos de entrada y salida y luego
utiliza esa información para formular predicciones basadas en nuevos
conjuntos de datos. Por ejemplo, un modelo de clasificación puede aprender a
identificar plantas después de recibir capacitación en un conjunto de datos de
imágenes correctamente etiquetadas con las especies de plantas y otras
características de identificación.
Los métodos de aprendizaje automático supervisados suelen resolver
problemas de regresión y clasificación:
Los problemas de regresión implican estimar la(s) relación(es)
matemática(s) entre una variable continua y una o más variables. Esta
relación matemática luego puede calcular los valores de una variable
desconocida dados los valores conocidos de las demás. Los ejemplos
de problemas que utilizan la regresión incluyen la estimación de la
posición y la velocidad de un automóvil mediante GPS, la predicción de
la trayectoria de un tornado mediante datos meteorológicos o la
predicción del valor futuro de una acción mediante datos históricos y de
otro tipo.
Los problemas de clasificación consisten en una variable discreta
desconocida. Por lo general, el problema consiste en estimar qué
muestra específica pertenece a un conjunto de clases predefinidas.
Ejemplos de clasificación son el filtrado de correo electrónico en spam o
no spam, el diagnóstico de patologías a partir de pruebas médicas o la
identificación de rostros en una imagen.
no supervisado
Los algoritmos de aprendizaje automático no supervisados no requieren
expertos humanos, sino que descubren patrones en los datos de forma
autónoma. El aprendizaje no supervisado se ocupa principalmente de datos sin
etiquetar. El modelo debe funcionar por sí solo para encontrar patrones e
información. Algunos ejemplos de problemas resueltos con métodos no
supervisados son el agrupamiento en clústeres y la asociación:
Métodos de agrupación en clústeres - La agrupación en clústeres es
la agrupación de datos que tienen características similares. Ayuda a
segmentar los datos en grupos ya analizar cada uno para encontrar
patrones. Por ejemplo, los algoritmos de agrupación identifican grupos
de usuarios en función de su historial de compras en línea y luego
envían anuncios dirigidos a cada miembro.
Métodos de asociación - La asociación consiste en descubrir grupos
de elementos frecuentemente observados juntos. Los minoristas en
línea usan asociaciones para sugerir compras adicionales a un usuario
en función del contenido de su carrito de compras.
Refuerzo
El aprendizaje por refuerzo enseña a la máquina a través de la prueba
y el error mediante la retroalimentación de sus acciones y experiencias,
también conocida como aprendizaje de errores. Implica asignar valores
positivos a los resultados deseados y valores negativos a los efectos no
deseados. El resultado son soluciones optimas; el sistema aprende a
evitar resultados adversos y buscar lo positivo. Las aplicaciones
prácticas del aprendizaje por refuerzo incluyen la creación de
inteligencia de ratificación para juegos de video, robótica y
automatización industrial.
Roles en las Profesiones de Análisis de
Datos
Analista de Datos
Los analistas de datos consultan, procesan, proporcionan informes y resumen y
visualizan datos. Utilicen las herramientas y los métodos existentes para
resolver un problema. Ayudan a las personas, como los analistas de negocio, a
comprender consultas específicas con informes y gráficos ad hoc. Los analistas
de datos deben comprender los principios estadísticos básicos, la limpieza de
diferentes tipos de datos, la visualización y el análisis exploratorio de datos. En
resumen, los analistas de datos analizan los datos para ayudar a las empresas
y otras organizaciones a tomar decisiones informadas.
Ingeniero de Datos
Los ingenieros de datos son responsables de crear y poner en funcionamiento
las canalizaciones de datos para recopilar y organizar los datos. Garantizan la
accesibilidad y la disponibilidad de datos de calidad para científicos de datos y
analistas de datos mediante la integración de datos de fuentes dispares y
realizando la limpieza y transformación de datos. Las habilidades necesarias
para los roles de ingeniería de datos incluyen comprender la arquitectura, las
herramientas y los métodos de ingestión, transformación y almacenamiento de
datos; y dominio de múltiples lenguajes de programación (incluidos Python y
Scala). En resumen, los ingenieros de datos crean y operan la infraestructura
de datos necesaria para preparar los datos para su posterior análisis por parte
de analistas de datos y científicos.
Científico de Datos
Los científicos de datos aplican las estadísticas, el aprendizaje automático y los
enfoques analíticos para responder las preguntas esenciales de la
empresa. Los científicos de datos interpretan y entregan los resultados de sus
hallazgos mediante el uso de técnicas de visualización, la creación de
aplicaciones de ciencia de datos o la narración de historias emocionantes sobre
las soluciones a sus problemas de datos (empresariales). Trabajan con los
conjuntos de datos de diferentes tamaños, y ejecutan algoritmos en los grandes
conjuntos de datos. Los científicos de datos deben estar al día con las últimas
tecnologías de automatización y aprendizaje automático. Los requisitos para
desempeñar estos roles incluyen habilidades estadísticas y analíticas,
conocimientos de programación (Python, R, Java) y familiaridad con Hadoop,
un conjunto de utilidades de software de código abierto que facilita el trabajo
con grandes cantidades de datos. Los científicos de datos son expertos en
datos que organizan y ofrecen valor a partir de los datos.
¿Cuál es el rol de un analista de datos?
Consultar y procesar datos, proporcionar informes, resumir y visualizar datos.
¿Cuál es el papel de un científico de datos?
Aplicar estadísticas, aprendizaje automático, técnicas de visualización y
enfoques analíticos para responder preguntas críticas comerciales.
¿Cuál es el rol de un ingeniero de datos?
Desarrollar y poner en funcionamiento tuberías de datos para recopilar y
organizar datos.