0% encontró este documento útil (0 votos)

16 vistas34 páginas

Tema 3

El documento aborda técnicas de aprendizaje automático, centrándose en la gestión de datos ausentes y la normalización. Se discuten etapas en un proyecto de Machine Learning, la importancia de la selección de atributos, y métodos para manejar datos redundantes y faltantes. También se explican técnicas de escalado y transformación de variables categóricas para su uso en modelos de aprendizaje automático.

Cargado por

Gregory Villanueva

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

16 vistas34 páginas

Tema 3

Cargado por

Gregory Villanueva

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Técnicas de

Aprendizaje Automático
José María Escalante Fernández

Tema 3. Datos ausentes y

normalización

Universidad Internacional de La Rioja

Etapas en un proyecto de Machine Learning

Obtención Entrenamiento y Optimización

de los datos validación del modelo del modelo

Definido un
problema

Testeo
Preparación y del modelo
Comprensión de los datos
2
Obtención Entrenamiento y Optimización
de los datos validación del modelo del modelo

Testeo
Preparación y del modelo
Comprensión de
los datos

Temas 2 y 3
3
Atributos
redundantes
¿Cómo gestionarlos?

4
Atributos redundantes
Aplicando la lógica

Nombre es_hombre es_mujer Nombre sexo

Angie 0 1 Angie 1
Juan 1 0 Juan 0
Diego 1 0 Diego 0
Pedro 1 0 Pedro 0
Ana 0 1 Ana 1
Jose 1 0 Jose 0
Carolina 0 1 Carolina 1

Variables Simplifico los datos, por lo

excluyentes
que simplifico mi modelo sin
eliminar información
5
Atributos redundantes
En la mayoría de los casos, los
datos contienen más información
de la necesaria.

La selección de atributos es una de las

principales etapas para la creación de
modelos de aprendizaje automático

CALIDAD EFICIENCIA
DEL MODELO COMPUTACIONAL

TIEMPOS DE CAPACIDAD DE
COMPUTO ALMACENAMIENTO

6
Dos tipos de relaciones
X1, X2, X3, …, Xn; Y
Atributos o
Variable objetivo
Características

En un dataset, hay dos tipos de relaciones entre las variables que hay en el:

 entre las variables características y la variable objetivo

 entre las variables características en si

7
Atributos redundantes

Para medir la relación entre las variables características y la variable objetivo, aplicábamos
esta serie de criterios matemáticos:

Aplicando Criterios Matemáticos

Covarianza y ANOVA Chi cuadrado (2)

Correlación
Continua - Continua Continua - Discreta Discreta - Discreta

8
Atributos redundantes

Para medir la relación entre las variables características, aplicábamos esta serie de criterios
matemáticos:
Aplicando Criterios Matemáticos

Covarianza y
Correlación Chi cuadrado (2)

Continua - Continua Discreta - Discreta

¿Por qué no aplicamos ANOVA?

¿Por qué no vemos la relación entre características DISCRETAS y CONTINUAS?

9
Atributos redundantes
Aplicando Criterios Matemáticos: Covarianza y Correlación

La covarianza y la correlación son medidas estadísticas que me permite el grado de

variación conjunto entre dos variables.

Y = f(X1, X2, X3)

Y Y Y
Y = f(X2, X3)

X1 X2 X3

10
Atributos redundantes
Aplicando Criterios Matemáticos: Covarianza y Correlación

La covarianza y la correlación son medidas estadísticas que me permite el grado de

variación conjunto entre dos variables.

Y = f(X2, X3)

X3 Simplifico mi modelo
Y = f(X2)
sin eliminar información

11
Atributos redundantes
Aplicando Criterios Matemáticos: Covarianza y Correlación

La covarianza y la correlación son medidas estadísticas que me permite el grado de

variación conjunto entre dos variables.

12
Atributos redundantes
Aplicando Criterios Matemáticos: Prueba de hipótesis Chi cuadrado (2)

• Es una técnica estadística utilizada para evaluar

si existe una relación significativa entre variables
cualitativas. (Frecuencias observadas)

• 2 comprueba la hipótesis de si X1 y X2 son

independientes. Si puedo rechazar esa hipótesis,
entonces X1 y X2 están correlacionadas, no son
estadísticamente independientes.

• En función del valore de 2 podría prescindir de

una de esas variables.

13
Atributos redundantes
Aplicando Criterios Matemáticos: Prueba de hipótesis Chi cuadrado (2)

Ejemplo estudio que analiza si existe una relación entre el tipo de tienda (categoría 1) y el
tipo de producto preferido (categoría 2) por los clientes.

IMPORTANTE!!!
La hipótesis nula H0 implica que ambas variables categóricas son independientes.

Dos casos de tablas de contingencia (frecuencias observadas en variables categóricas nominales)

Ver ejemplo:Chi_2_ejemplo_NO_RECHAZO.py Ver ejemplo: Chi_2_ejemplo_RECHAZO.py

14
Datos
duplicados
¿Cómo gestionarlos?

15
DETECCION DE REGISTROS DUPLICADOS
Datos duplicados son aquellos que tienen valores que coinciden en todas las variables.

También Datos duplicados son aquellos que, a pesar de tener contenidos diferentes, deberían ser
los mismo.

La existencia de estos datos de debe a la manipulación incorrecta de datos.

Ver ejemplo: Datos_duplicados.py

16
Datos
ausentes o faltantes
¿Cómo gestionarlos?

17
Supongamos el siguiente
problema

Faltan datos,
¿qué se puede hacer?

18
MECANICMSO PARA REEMPLAZAR DATOS
AUSENTES (GESTIÓN DATOS FALTANTES)

DATOS AUSENTE o FALTANTE: son atributos

que no se introdujeron o se perdieron en el
proceso de registro.

Este tipo de datos puede implicar ciertos

problemas, como:

• Dificultar el análisis
• Introducción de Sesgos
• Conclusiones erróneas
• Limitación en la generalización de resultados

19
MECANICMSO PARA REEMPLAZAR DATOS
AUSENTES (GESTIÓN DATOS FALTANTES)
DETECCION DE DATOS AUSENTE o FALTANTE

• Resumen del conjunto de datos  [Link]()

• Detectar atributos cuyo valor mínimo es 0, lo cual carece de sentido

• Valores ausentes (en Python viene indicados por “NaN”, “None”, “-”) [Link]() o [Link]()

• Calcular el número total de valores ausentes [Link]().sum() o [Link]().sum()

20
MECANICMSO PARA REEMPLAZAR DATOS
AUSENTES (GESTIÓN DATOS FALTANTES)
¿Qué hacer con los datos ausentes o faltantes?

ELIMINACIÓN REEMPLAZO

21
MECANICMSO PARA REEMPLAZAR DATOS
AUSENTES (GESTIÓN DATOS FALTANTES)

ELIMIANCIÓN - Mecanismo de imputación por

eliminación

• Eliminación de las filas con datos ausentes.

Práctico cuando el numero de datos ausentes
es relativamente pequeño.

• Eliminación de la columna con datos ausentes.

Practico cuando la columna (variable no tiene
un gran peso en el futuro modelo).

22
MECANICMSO PARA REEMPLAZAR DATOS
AUSENTES (GESTIÓN DATOS FALTANTES)
REEMPLAZO – Imputación de datos ausentes con estimados

• Técnicas de interpolación.

• Sustitución de valores faltantes por la media, la mediana o la moda. ¿Cómo lo harías?

• Usar modelos como k-nearest neighbour (KNN)

• Usar modelos de clsutering

• Imputación basada en SVM El usuario puede seleccionar el método más

adecuado a cada situación que afronta
• Algoritmo esperanza maximización (EM)

• Método de imputación múltiple (IM)

23
ESCALADO
DE DATOS
¿Qué es y para qué sirve?

24
ESCALADO
DE CARACTERÍSTICAS o ATRIBUTOS

En la mayoría de los casos, los conjuntos de datos contienen

atributos que varían altamente en magnitudes, unidades y rangos.

Esto provoca que las diferentes variables contribuyan

de manera no equitativa en el modelo matemático.

Es necesario aplicar técnicas de escalado de características, las técnicas

mas comunes son las de NORMALIZACIÓN y ESTANDARIZACION

25
ESCALADO
DE CARACTERÍSTICAS o
ATRIBUTOS

PROBLEMAS!!!

26
ESCALADO: NORMALIZACIÓN y ESTANDARIZACIÓN

Normalización (MÍN-MÁX)

• Conocida como escalamiento de características, reajusta los valores de una variable a un rango
específico, generalmente entre 0 y 1 (también entre -1 y 1).

• Útil cuando la distribución de los datos no se conoce.

• Asegura que todas las variables estén dentro del mismo rango, evitando que una variable individual
domine el análisis debido a su magnitud más grande.

• La normalización preserva la forma de distribución original, pero cambia la escala.

En Python → función MinMaxScaler

27
ESCALADO: NORMALIZACIÓN y ESTANDARIZACIÓN

Estandarización (Z-score)

• Conocida como normalización z-score, transforma los valores de una variable para que tengan
una media de μ = 0 y una desviación estándar de σ = 1.

• Asume que los datos siguen una distribución gaussiana.

• Facilita su interpretación y comparación de los datos que tienen diferentes unidades o escalas.

En Python → función StandardScaler

28
NORMALIZACIÓN y ESTANDARIZACIÓN

Ver ejemplo: Norm_Standar.py y Norm_Standar_Wine_dataset.py

29
De NOMINAL a BINARIO
¿Qué es y para qué sirve?

30
Variables y sus tipos

Definición
Una variable es una característica o atributo de un objeto que puede ser observables, es
susceptible de variación y por lol tanto medible.

31
De NOMINAL a BINARIO
Muchos algoritmos de aprendizaje automático que vamos a ver no pueden lidiar correctamente con
los atributos nominales (no numéricos).

• La presencia de estas características en un conjunto de datos puede resultar problemática.

• Necesidad de transformar variable nominal a variable numérica. Una opción pude ser codificando
cada valor nominal mediante un número entero.

• Esta opción no es recomendable para variables NOMINALES debido a que se asume un

orden de jerarquía que no existe en los valores del atributo. No obstante, si es valida para
variables ORDINALES.

Color_cat Color_num
Rojo 1
Azul 2
Verde 3

32
De NOMINAL a BINARIO
One-Hot-Encoding

Es una técnica de transformación de datos categóricos en la que se convierten las categorías en un

formato numérico binario. Es ampliamente utilizada en el preprocesamiento de datos para que las
variables categóricas puedan ser utilizadas en algoritmos de aprendizaje automático, que
generalmente no pueden manejar datos categóricos directamente.

Color_cat Color_num
Rojo [1, 0, 0]
Azul [0, 1, 0]
Verde [0, 0, 1]

Ver ejemplo: One_Hot_Encoding.py

33
[Link]

También podría gustarte

Limpieza y Pre-procesamiento de Datos
Aún no hay calificaciones
Limpieza y Pre-procesamiento de Datos
44 páginas
Limpieza y Transformación de Datos
Aún no hay calificaciones
Limpieza y Transformación de Datos
21 páginas
Manejo de Datos Ausentes y Normalización
Aún no hay calificaciones
Manejo de Datos Ausentes y Normalización
44 páginas
Tema 3. Datos Ausentes y Normalización
Aún no hay calificaciones
Tema 3. Datos Ausentes y Normalización
53 páginas
Calidad de Datos en Machine Learning
Aún no hay calificaciones
Calidad de Datos en Machine Learning
18 páginas
Identificación de Variables Clave en Investigación
Aún no hay calificaciones
Identificación de Variables Clave en Investigación
31 páginas
IA Presentacion U2
Aún no hay calificaciones
IA Presentacion U2
12 páginas
Clase5 - Procesamiento de Señales y Aprendizaje de Máquinas en Mantenimiento Predictivo
Aún no hay calificaciones
Clase5 - Procesamiento de Señales y Aprendizaje de Máquinas en Mantenimiento Predictivo
63 páginas
Introduccion Machine Learning
Aún no hay calificaciones
Introduccion Machine Learning
42 páginas
2 PreparaciÃ N de Datos - Int Analitica PDF
Aún no hay calificaciones
2 PreparaciÃ N de Datos - Int Analitica PDF
41 páginas
Preparación de Datos para Minería
Aún no hay calificaciones
Preparación de Datos para Minería
34 páginas
CIENCIA DE DATOS - APE - Corrección de La Lección de La Unidad 1
Aún no hay calificaciones
CIENCIA DE DATOS - APE - Corrección de La Lección de La Unidad 1
9 páginas
Minería de Datos y Preparación de Datos
Aún no hay calificaciones
Minería de Datos y Preparación de Datos
104 páginas
ClaseIA2c2
Aún no hay calificaciones
ClaseIA2c2
35 páginas
Depuración de Datos en Minería Predictiva
Aún no hay calificaciones
Depuración de Datos en Minería Predictiva
19 páginas
Introducción al Machine Learning
Aún no hay calificaciones
Introducción al Machine Learning
100 páginas
Impacto de la Computación en Estadística
Aún no hay calificaciones
Impacto de la Computación en Estadística
28 páginas
Minería de Datos 7
Aún no hay calificaciones
Minería de Datos 7
15 páginas
Normalización de Variables
Aún no hay calificaciones
Normalización de Variables
14 páginas
003 Analisis Exploratorio
Aún no hay calificaciones
003 Analisis Exploratorio
60 páginas
Sesión 8 - Análisis Exploratorio de Datos (EDA)
100% (1)
Sesión 8 - Análisis Exploratorio de Datos (EDA)
30 páginas
Introducción al Machine Learning y Scikit-Learn
Aún no hay calificaciones
Introducción al Machine Learning y Scikit-Learn
55 páginas
Preparación y Limpieza de Datos en Análisis
Aún no hay calificaciones
Preparación y Limpieza de Datos en Análisis
43 páginas
Actividad, Semana 4 Cuadro de Doble Entrada en Word 9
Aún no hay calificaciones
Actividad, Semana 4 Cuadro de Doble Entrada en Word 9
7 páginas
Selección y Discretización de Atributos
Aún no hay calificaciones
Selección y Discretización de Atributos
15 páginas
Fundamentos de Machine Learning y Regresión
Aún no hay calificaciones
Fundamentos de Machine Learning y Regresión
110 páginas
Tema2 1 Preparacion Datos Limpieza
Aún no hay calificaciones
Tema2 1 Preparacion Datos Limpieza
33 páginas
S
Aún no hay calificaciones
S
23 páginas
Análisis y Tratamiento de Datos Estadísticos
Aún no hay calificaciones
Análisis y Tratamiento de Datos Estadísticos
45 páginas
Organización y Limpieza de Datos Tidy
Aún no hay calificaciones
Organización y Limpieza de Datos Tidy
13 páginas
PEA Advanced DS S04 - 02052024
Aún no hay calificaciones
PEA Advanced DS S04 - 02052024
47 páginas
Ciencia de Datos en la Industria: ETL y Análisis
Aún no hay calificaciones
Ciencia de Datos en la Industria: ETL y Análisis
26 páginas
Parcial 1°C 2024
Aún no hay calificaciones
Parcial 1°C 2024
5 páginas
Avances en Machine Learning: Sprint 2
Aún no hay calificaciones
Avances en Machine Learning: Sprint 2
83 páginas
Entregable 1 - Introducción Al Análisis de Datos
Aún no hay calificaciones
Entregable 1 - Introducción Al Análisis de Datos
6 páginas
Fundamentos de Estadística Descriptiva
Aún no hay calificaciones
Fundamentos de Estadística Descriptiva
27 páginas
Curso de Probabilidad y Estadística
Aún no hay calificaciones
Curso de Probabilidad y Estadística
147 páginas
Imputación de Datos Faltantes: Curso Completo
Aún no hay calificaciones
Imputación de Datos Faltantes: Curso Completo
74 páginas
Introducción a la Estadística Descriptiva
Aún no hay calificaciones
Introducción a la Estadística Descriptiva
89 páginas
Análisis de Datos en Big Data y IoT
Aún no hay calificaciones
Análisis de Datos en Big Data y IoT
85 páginas
Análisis Exploratorio de Datos y Preprocesamiento
Aún no hay calificaciones
Análisis Exploratorio de Datos y Preprocesamiento
28 páginas
Fundamentos de Estadística Descriptiva e Inferencial
Aún no hay calificaciones
Fundamentos de Estadística Descriptiva e Inferencial
40 páginas
Técnicas de Análisis de Clúster
Aún no hay calificaciones
Técnicas de Análisis de Clúster
23 páginas
Diplomado en Ciencia de Datos: Contenidos Clave
Aún no hay calificaciones
Diplomado en Ciencia de Datos: Contenidos Clave
11 páginas
Análisis de Componentes Principales en RRHH
Aún no hay calificaciones
Análisis de Componentes Principales en RRHH
17 páginas
Análisis y Limpieza de Datos Efectiva
Aún no hay calificaciones
Análisis y Limpieza de Datos Efectiva
5 páginas
Modelo de Estimación Usando La Base de Datos ATHLET1.DTA - HECTOR AVILES Y CARLA TORRES
Aún no hay calificaciones
Modelo de Estimación Usando La Base de Datos ATHLET1.DTA - HECTOR AVILES Y CARLA TORRES
6 páginas
Introducción a la Estadística Básica
Aún no hay calificaciones
Introducción a la Estadística Básica
39 páginas
Guía Completa de Análisis de Datos
Aún no hay calificaciones
Guía Completa de Análisis de Datos
15 páginas
Datos y Modelos en Aprendizaje Automático
Aún no hay calificaciones
Datos y Modelos en Aprendizaje Automático
20 páginas
Sesion 03 Estadistica
Aún no hay calificaciones
Sesion 03 Estadistica
18 páginas
Clase 5. Métodos Estadísticos Utilizados en Pricing
Aún no hay calificaciones
Clase 5. Métodos Estadísticos Utilizados en Pricing
44 páginas
Curso de Analisis Exploratorio de Datos
Aún no hay calificaciones
Curso de Analisis Exploratorio de Datos
137 páginas
Análisis Multivariable en Marketing
Aún no hay calificaciones
Análisis Multivariable en Marketing
31 páginas
Análisis de Variables Cuantitativas en Estadística
Aún no hay calificaciones
Análisis de Variables Cuantitativas en Estadística
7 páginas
Ciencia de Datos y Redes Neuronales
Aún no hay calificaciones
Ciencia de Datos y Redes Neuronales
42 páginas
Análisis Estadístico y Modelado de Datos
Aún no hay calificaciones
Análisis Estadístico y Modelado de Datos
28 páginas
Fundamentos de Estadística Descriptiva
Aún no hay calificaciones
Fundamentos de Estadística Descriptiva
9 páginas
Límites Exactos y Medidas Estadísticas
Aún no hay calificaciones
Límites Exactos y Medidas Estadísticas
21 páginas
Tema 4
Aún no hay calificaciones
Tema 4
26 páginas
Tema 2
Aún no hay calificaciones
Tema 2
32 páginas
Tema 1
Aún no hay calificaciones
Tema 1
24 páginas
5 BD 78 A 0 Ca 247 D
Aún no hay calificaciones
5 BD 78 A 0 Ca 247 D
6 páginas
Gestión de Discos y Volúmenes Solaris
Aún no hay calificaciones
Gestión de Discos y Volúmenes Solaris
2 páginas
Taller Online de Iniciación a la Astronomía
Aún no hay calificaciones
Taller Online de Iniciación a la Astronomía
9 páginas
Dependencia y Paciencia en Dios
Aún no hay calificaciones
Dependencia y Paciencia en Dios
11 páginas
La Cruz de La Conquista
100% (1)
La Cruz de La Conquista
3 páginas
Evaluacion Final 4 y 5 de Primaria
Aún no hay calificaciones
Evaluacion Final 4 y 5 de Primaria
6 páginas
Historia y Aplicaciones de la Probabilidad
Aún no hay calificaciones
Historia y Aplicaciones de la Probabilidad
20 páginas
Poliedros Regulares
Aún no hay calificaciones
Poliedros Regulares
19 páginas
Técnicas de Redacción en Crucigrama
Aún no hay calificaciones
Técnicas de Redacción en Crucigrama
2 páginas
Planificación de Estudios Sociales Décimo
Aún no hay calificaciones
Planificación de Estudios Sociales Décimo
23 páginas
Usos y propiedades de Tradescantia zebrina
Aún no hay calificaciones
Usos y propiedades de Tradescantia zebrina
11 páginas
Resumen Lectura "Transmisión de Las Obligaciones"
Aún no hay calificaciones
Resumen Lectura "Transmisión de Las Obligaciones"
3 páginas
Modelo Canadiense en Terapia Ocupacional
100% (1)
Modelo Canadiense en Terapia Ocupacional
34 páginas
Retos de Pensamiento Lateral
Aún no hay calificaciones
Retos de Pensamiento Lateral
3 páginas
4.2 El Teatro y Sus Componentes-1
Aún no hay calificaciones
4.2 El Teatro y Sus Componentes-1
6 páginas
Ventajas de la medicina moderna
100% (2)
Ventajas de la medicina moderna
6 páginas
Intervención Online en Fobia Infantil COVID-19
Aún no hay calificaciones
Intervención Online en Fobia Infantil COVID-19
14 páginas
OVNIS Investigacion Prioritaria Hoy
Aún no hay calificaciones
OVNIS Investigacion Prioritaria Hoy
5 páginas
Correr - Entrenamiento de La Fuerza Mental - Matt Fitzgerald PDF
0% (2)
Correr - Entrenamiento de La Fuerza Mental - Matt Fitzgerald PDF
630 páginas
Menores Infractores de La Ley Penal
100% (1)
Menores Infractores de La Ley Penal
132 páginas
05 Estructura Del Infome de Investigacion - Ccee Usac
0% (1)
05 Estructura Del Infome de Investigacion - Ccee Usac
36 páginas
Triptico Sobre Las Indulgencias Plenarias
100% (1)
Triptico Sobre Las Indulgencias Plenarias
2 páginas
Inclusión educativa en universidades hondureñas
Aún no hay calificaciones
Inclusión educativa en universidades hondureñas
20 páginas
Anatomía de la Cintura Pélvica
Aún no hay calificaciones
Anatomía de la Cintura Pélvica
4 páginas
Redes de Comunicación Organizacional
100% (2)
Redes de Comunicación Organizacional
23 páginas
S-Instrucciones Del Escapulario Azul
Aún no hay calificaciones
S-Instrucciones Del Escapulario Azul
2 páginas
Funcionamiento del Transformador Monofásico
Aún no hay calificaciones
Funcionamiento del Transformador Monofásico
9 páginas
Calculadora de Arcoseno Online
Aún no hay calificaciones
Calculadora de Arcoseno Online
1 página
Historia del Imperio Persa Aqueménida
Aún no hay calificaciones
Historia del Imperio Persa Aqueménida
9 páginas
Estadistica-Ia en La Educacion Peruana - PF
Aún no hay calificaciones
Estadistica-Ia en La Educacion Peruana - PF
16 páginas
Criterios para la Selección de Jueces en Evaluación Sensorial
Aún no hay calificaciones
Criterios para la Selección de Jueces en Evaluación Sensorial
31 páginas
Propuesta Curricular para Tecnicaturas Superiores
Aún no hay calificaciones
Propuesta Curricular para Tecnicaturas Superiores
64 páginas