0% encontró este documento útil (0 votos)
77 vistas19 páginas

Metodología

El documento describe tres metodologías para el análisis exploratorio de datos (EDA): EDA, SEMMA y CRISP-DM. EDA involucra describir y resumir los datos para comprender las relaciones entre variables. SEMMA incluye cinco fases de muestreo, exploración, modificación, modelado y evaluación. CRISP-DM propone seis fases para la minería de datos con el objetivo de fomentar la interoperabilidad de herramientas.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
77 vistas19 páginas

Metodología

El documento describe tres metodologías para el análisis exploratorio de datos (EDA): EDA, SEMMA y CRISP-DM. EDA involucra describir y resumir los datos para comprender las relaciones entre variables. SEMMA incluye cinco fases de muestreo, exploración, modificación, modelado y evaluación. CRISP-DM propone seis fases para la minería de datos con el objetivo de fomentar la interoperabilidad de herramientas.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

2023

Minería de Datos

1
EDA

• El análisis exploratorio de los datos


se refiere al conjunto de técnicas estadís6cas
cuyo obje6vo es explorar, describir y resumir
la naturaleza de los datos y comprender las
relaciones existentes entre las variables de
interés, maximizando la comprensión del
conjunto de datos.
El obje6vo durante el EDA es
desarrollar un entendimiento de tus datos. La
manera más fácil de lograrlo es usar preguntas
como herramientas para guiar tu inves6gación.

Formular una pregunta, orienta la


atención en una parte específica de tu conjunto
de datos y te ayuda a decidir qué gráficos,
modelos o transformaciones son necesarios.
• Para realizar esta guía se ha tomado como referencia el
análisis exploratorio de datos descrito en el libro R for Data
Science de Wickman y Grolemund (2017) disponible de
forma gratuita y que además incluye una gran can:dad de
ejemplos prác:cos. El EDA que te proponemos seguirá los
sig

Análisis
• 1. Realizar un análisis descripBvo de las variables, para
obtener una idea representa:va del conjunto de datos.
• 2. Re-ajustar los Bpos de las variables para que sean

exploratorio
consistentes en el momento de realizar posteriores
operaciones.
• 3. Detección y tratamiento de datos ausentes. El tratamiento

de datos
o la eliminación de datos ausentes es esencial, ya que de
otra manera no será posible procesar adecuadamente las
variables numéricas.
• 4. IdenBficación de datos aIpicos y su tratamiento, dado
que pueden distorsionar futuros análisis estadís:cos.
• 5. Realizar un examen numérico y gráfico de las relaciones
entre las variables analizadas para determinar el grado de
correlación entre ellas, pudiendo predecir el
comportamiento de una variable en función de las otras.
Las tres metodologías dominantes para el proceso de la
minería de datos son: KDD, CRISP-DM y SEMMA.

9/3/23 5
3/9/23 6
3/9/23 7
3/9/23 Danilo Gómez C 8
3/9/23 Danilo Gómez C 9
3/9/23 Danilo Gómez C 10
3/9/23 Danilo Gómez C 11
SEMMA

• SEMMA es el acrónimo a las


cinco fases: (Sample, Explore,
Modify, Model, Assess) La
metodología es propuesta por
SAS Ins@tute Inc, la define
como: “... proceso de selección,
exploración y modelamiento de
grandes can@dades de datos
para descubrir patrones de
negocios desconocidos...”[2].
12
3/9/23 Danilo Gómez C 13
CRISP- DM
• Cross-Industry Standard Process for
Data Mining (CRISP- DM)
Danilo Gómez C

9/3/23
• Inicia:va financiada por la Comunidad
Europea ha unido para desarrollar
una plataforma para Minería de
Datos.

14
Fomentar la
interoperabilidad de las
herramientas a través de

9/3/23
todo el proceso de
minería de datos
Obje4vos:
Eliminar la experiencia

Danilo Gómez C
misteriosa y costosa de
las tareas simples de
minería de datos.

15
17
3/9/23
Fases
Danilo Gómez C
18

3/9/23 Danilo Gómez C


9/3/23 Danilo Gómez C 19

También podría gustarte