0% encontró este documento útil (0 votos)

200 vistas10 páginas

Tutorial Weka

Este documento describe los pasos para analizar y limpiar datos usando Weka para predecir si una persona gana más o menos de $50,000. Incluye analizar atributos numéricos y nominales para identificar valores faltantes, outliers y distribuciones, y aplicar filtros para remover datos no representativos o irrelevantes. Luego evalúa la relevancia de los atributos y genera un clasificador usando el árbol J48 para predecir el ingreso con una eficiencia de alrededor del 81%.

Cargado por

Crizthian Rojaz

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

200 vistas10 páginas

Tutorial Weka

Cargado por

Crizthian Rojaz

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Tutorial Weka

Se requiere determinar si una persona gana ms de US$50 mil (>50k) o

menos (<=50K). Se definen ahora los pasos para analizar y limpiar datos.
Para esto debemos abrir el archivo [Link] en el Explorer de Weka.
1. Anlisis y limpieza de datos
Para analizar los datos existen varias formas de hacerlo, todas ellas
complementarias. Veremos el anlisis de un atributo numrico Age
y uno nominal Workclass.
Atributo Age
Revisin de caractersticas:

Campos relevantes:
Missing: Indica el nmero de valores faltantes o nulos.
Minimum: Valor mnimo del atributo.
Maximum: Valor mximo del atributo.
Revisin de la distribucin:

Se puede apreciar que existen outliers, que sera bueno revisar. Para
esto seleccionamos el tab Visualize, para hacer un anlisis ms
profundo de esta distribucin.

Con el control Jitter podemos ampliar o disminuir la distribucin.

Podemos apreciar que existen elementos muy alejados y adems
separados. Otra cosa es que representan personas de edad 90, lo
cual quizs no sea muy representativo.
Nota: El anlisis no solo es visual, tambin se debe aplicar criterios.
Filtro de datos
Vamos a filtrar a todas las personas que tienen 90 aos.
En el tab Preprocess, hacemos clic en el botn Choose. Debemos
elegir un filtro no supervisado y de instancia, RemoveWithValues.
Hacemos clic en el nombre del filtro para cambiar sus parmetros.

attributeIndex: ndice del atributo en listado.

InvertSelection: Cuando est en False, el filtro se hace hacia
debajo de la condicin (en este caso filtrara (elimina) todos los
menores a 90), en True filtra de la condicin hacia arriba.

matchMissingValues: Elimina los nulos, sin importar

condicin.
splitPoint: Condicin de quiebre para hacer el filtro (los
mayores a 90).

Nota: Si se desea leer ms cada parmetro, hacer clic en el botn

More.
Se debe ejecutar el filtro, clic en botn Apply. Ver los cambios en las
caractersticas del atributo.
Nota: En caso de error, hacer clic en botn Undo.

Atributo workclass
Revisin de caractersticas:

Define la cantidad de instancias por cada clase predefinida.

Ojo: Existen 2791 instancias nulas para este atributo.

Notar que las ltimas clases son irrelevantes para el caso de anlisis.
Se puede hacer un anlisis ms profundo utilizando la herramienta
Visualize y el Jitter.
Filtro de datos
Vamos a filtrar las clases WithOutPay y NeverWorked, utilizando el
mismo filtro anterior. Hacer clic en nombre de filtro para modificar
parmetros.

modifyHeader: Al eliminar las clases, se eliminan tambin sus

entradas.
nominalIndices: ndices de las clases a ser eliminadas.

Atributo fnlwgt
Tambin presenta outliers, utilizando el mismo filtro y los siguientes
valores para los parmetros: 3, T, T, X, X, 900000.
Nota: X significa que ese atributo no se considera en esta evaluacin,
por ser una variable numrica.
Atributo education y education-num
Si vemos el siguiente grfico, correlacin entre ambos atributos,
podemos notar que ambos atributos dicen lo mismo. Estn
directamente relacionados.

Ahora se tiene que eliminar uno. Nos quedamos con education-num,

debido a que es un valor numrico y ordenado, ms fcil de explicar,
cada valor tiene significado.
En cambio education, muestra un conjunto de clases, que sera un
poco difcil de explicar u ordenar (para el algoritmo).
Seleccionamos el atributo education y hacemos clic en el botn
Remove.
Atributos marital-status y relationship
Ambos se quedan, expresan conceptos
directamente relacionados.

diferentes.

estn

Atributo occupation
Por un anlisis de nmeros en las clases, nos damos cuenta que la
clase armed-forces tiene un valor bastante insignificante con respecto
a los otros. Entonces eliminar esa clase.

Filtro RemoveWithValues(6,F,T,T,last,X).
Atributos race y sex
Quedan y no presentan nada extrao.
Atributo capital-gain
Presenta un extremo preocupante (99999), que representa los no
sabe / no opina. Entonces debemos filtrarlos.
Filtro RemoveWithValues(10,T,X,X,X,50000)
Si analizamos el resultado podemos notar que existen aun algunos
outliers, por lo tanto volvemos a filtrar.
Filtro RemoveWithValues(10,T,X,X,X,30000)
Atributo capital-loss
Se eliminarn los outliers.
Filtro RemoveWithValues(11,T,X,X,X,3500)
Atributo hours-per-week
No vamos a filtrar nada, pero se debe tener en consideracin el
siguiente anlisis.
Una persona que trabaja 12 horas diarias, los 7 das de la semana =
84 horas.
Una persona que trabaja 14 horas diarias, los 7 das de la semana =
98 horas.
Ser cierto que existan personas que trabajen 99 horas a la
semana?
Atributo native-country
Existen una serie de pases de procedencia, eliminar los menores?.
La mejor solucin es saber si la persona es de EEUU o no, para esto
se deber cambiar el atributo a binario.
Filters Unsupervised Attribute NominalToBinary(13,F,F,F)
Se crea por cada caracterstica nominal un Nuevo atributo, pero el
que nos interesa es el primero native-country = United States, por lo
que debemos eliminar todos los dems.
Filters Unsupervised Attribute Remove (14-53, F)
Ahora debemos eliminar los valores nulos de este nuevo atributo.
Filtro RemoveWithValues(13,F,T,X,X,-10)
Atributo class
Este atributo es el que se debe determinar, para este atributo
estamos haciendo el clasificador. Podemos notar que est bastante

descompensado, por probabilidades el algoritmo siempre considera al

mayor (p.e. Fuga de clientes de un banco con clases como estas,
siempre apuntar al mayor cuando determine la fuga).
Recordar que este anlisis lo hacemos debido a que es el atributo que
determina nuestro anlisis.
Vamos a equiparar las clases:
Filters Supervised Instance Resample(1,F,F,0,50) Esto produce
una muestra aleatoria de la original.
biasToUniformClass = con 1 se define que sean dos clases
iguales, con 0 utiliza la misma distribucin (la original).
SampleSizePercent = Tamao de la submuestra como
porcentaje del conjunto original. (Si originalmente tena 100
datos, las clases resultantes tendrn un porcentaje de esos
datos distribuidos en ellas)
2. Revisin de atributos (tab Select attributes)
Determina la relevancia de los atributos. Vamos a evaluar la
correlacin de todos los atributos con el atributo Class.
Evaluamos con ChiSquaredAttributeEval y Ranker:

Evaluamos con InfoGainAttributeEval y Ranker:

Evaluamos con GainRatioAttributeEval y Ranker

Si observamos en los tres, los atributos relationship y marital-status

estn siempre entre los tres primeros. Analizaremos la correlacin
entre los dos.
Utilizando los tres evaluadores anteriores para marital-status,
podemos notar una alta correlacin entre este atributo y el atributo
relationship, por lo tanto se debe eliminar uno de ellos. Por criterio, el
atributo marital-status tiene mayor significado que relationship, por lo
tanto eliminamos relationship.
El siguiente paso es generar el modelo clasificador.
3. Clasificador
Se utiliza el tab Clasiffy, con las siguientes opciones:
Se trabajar con el rbol J48

minNumObj = 200 (nmero de hijos), para rbol ms

pequeo.
Se utilizar la opcin de testeo Cross-validation.
El atributo ser Class.
o

Haremos una clasificacin sin el atributo occupation:

Podemos ver:
Correctly Classified Instances = 81.3773% (eficiencia)
TP Rate (true positive) es alta para ambas clases.
Precision es alta para ambas clases.
Evaluacin sin eliminar el atributo occupation:

Ambos modelos son bastante similares.

Haremos una clasificacin con los datos originales, lo que se muestra
en la siguiente figura.
Aparentemente la eficiencia es mejor, pero se debe buscar que la
eficiencia, TP Rate y Precisin sean buenos en conjunto. Para este
caso el TP Rate de la clase 1 es bastante bajo y no muy bueno para
ofrecer buenos resultados.

También podría gustarte

Practica 3
Aún no hay calificaciones
Practica 3
10 páginas
Preparación de Datos en WEKA
Aún no hay calificaciones
Preparación de Datos en WEKA
10 páginas
Minería de Datos 7
Aún no hay calificaciones
Minería de Datos 7
15 páginas
Análisis de Datos con WEKA
Aún no hay calificaciones
Análisis de Datos con WEKA
17 páginas
Weka PDF
Aún no hay calificaciones
Weka PDF
43 páginas
NASIMBA - Consulta Filtros Weka
Aún no hay calificaciones
NASIMBA - Consulta Filtros Weka
31 páginas
7 - Entrada y Salida
Aún no hay calificaciones
7 - Entrada y Salida
15 páginas
JARG - Taller 6 - Weka
Aún no hay calificaciones
JARG - Taller 6 - Weka
13 páginas
Sesion 5 y 6
Aún no hay calificaciones
Sesion 5 y 6
56 páginas
Exploración de Datos con WEKA
Aún no hay calificaciones
Exploración de Datos con WEKA
21 páginas
Daniel Guevara Minería Datos Weka
Aún no hay calificaciones
Daniel Guevara Minería Datos Weka
21 páginas
Tutorial Weka 3.6.0: Exploración y Clasificación
Aún no hay calificaciones
Tutorial Weka 3.6.0: Exploración y Clasificación
40 páginas
Tutorial Weka 3.6.0: Exploración y Clasificación
Aún no hay calificaciones
Tutorial Weka 3.6.0: Exploración y Clasificación
40 páginas
Limpieza de Datos
Aún no hay calificaciones
Limpieza de Datos
39 páginas
Reporte de Proyecto
Aún no hay calificaciones
Reporte de Proyecto
68 páginas
Clase 15 Atributos
Aún no hay calificaciones
Clase 15 Atributos
49 páginas
Técnicas KDD en Deserción Universitaria
Aún no hay calificaciones
Técnicas KDD en Deserción Universitaria
80 páginas
03 Rapid Miner
Aún no hay calificaciones
03 Rapid Miner
68 páginas
Optimización de Datos para Minería
Aún no hay calificaciones
Optimización de Datos para Minería
37 páginas
Análisis de Datos con Weka: Árboles de Decisión
Aún no hay calificaciones
Análisis de Datos con Weka: Árboles de Decisión
8 páginas
5 Clasificacion 1
Aún no hay calificaciones
5 Clasificacion 1
44 páginas
Guía de Uso de Weka para Minería de Datos
Aún no hay calificaciones
Guía de Uso de Weka para Minería de Datos
18 páginas
Análisis de Clientes Bancarios con K-Medias
Aún no hay calificaciones
Análisis de Clientes Bancarios con K-Medias
17 páginas
Optimización de Datos Censales 1994
Aún no hay calificaciones
Optimización de Datos Censales 1994
2 páginas
Clase 04 - Preparacion de Datos
Aún no hay calificaciones
Clase 04 - Preparacion de Datos
43 páginas
Tarea 2 - Jose Fernando Ararat
Aún no hay calificaciones
Tarea 2 - Jose Fernando Ararat
19 páginas
8FK1 - T4 - E3 - Informe - Equipo 4 - Análitica de Datos
Aún no hay calificaciones
8FK1 - T4 - E3 - Informe - Equipo 4 - Análitica de Datos
10 páginas
Hierarchical
Aún no hay calificaciones
Hierarchical
5 páginas
Modelo de Machine Learning con Orange
Aún no hay calificaciones
Modelo de Machine Learning con Orange
20 páginas
Instructivo WEKA NominalToBinary LinearRegression
Aún no hay calificaciones
Instructivo WEKA NominalToBinary LinearRegression
10 páginas
Preparación de Datos KDD: Limpieza y Transformación
Aún no hay calificaciones
Preparación de Datos KDD: Limpieza y Transformación
51 páginas
Análisis de Algoritmos de Decisión
Aún no hay calificaciones
Análisis de Algoritmos de Decisión
8 páginas
5.laboratorio Introducción Weka
Aún no hay calificaciones
5.laboratorio Introducción Weka
14 páginas
Plantilla Uveg Sdes 2021
Aún no hay calificaciones
Plantilla Uveg Sdes 2021
42 páginas
Guía de Limpieza de Datos en Python
Aún no hay calificaciones
Guía de Limpieza de Datos en Python
5 páginas
Tecnicas NO Supervisadas - 2020
Aún no hay calificaciones
Tecnicas NO Supervisadas - 2020
59 páginas
Weka Proyecto
Aún no hay calificaciones
Weka Proyecto
20 páginas
Ejercicios Weka PDF
Aún no hay calificaciones
Ejercicios Weka PDF
20 páginas
Presentacion Weka - Presentación Pruebas TyT
Aún no hay calificaciones
Presentacion Weka - Presentación Pruebas TyT
21 páginas
Taller de Árboles de Decisión
Aún no hay calificaciones
Taller de Árboles de Decisión
24 páginas
Taller - Power Bi
Aún no hay calificaciones
Taller - Power Bi
16 páginas
Articulo Weka DLinares
Aún no hay calificaciones
Articulo Weka DLinares
15 páginas
Taller Bayes
Aún no hay calificaciones
Taller Bayes
3 páginas
Análisis de Fuga de Clientes con Weka
Aún no hay calificaciones
Análisis de Fuga de Clientes con Weka
27 páginas
Análisis de Correlaciones en Combustibles
100% (1)
Análisis de Correlaciones en Combustibles
30 páginas
Análisis de Datos del Titanic con WEKA
Aún no hay calificaciones
Análisis de Datos del Titanic con WEKA
9 páginas
Análisis de Brecha Salarial por Género
Aún no hay calificaciones
Análisis de Brecha Salarial por Género
42 páginas
Tuto WEka
Aún no hay calificaciones
Tuto WEka
30 páginas
Knime Parte 2
Aún no hay calificaciones
Knime Parte 2
12 páginas
Guía de Árboles de Clasificación KNIME
Aún no hay calificaciones
Guía de Árboles de Clasificación KNIME
18 páginas
Practica de Adquisición de Datos
Aún no hay calificaciones
Practica de Adquisición de Datos
6 páginas
3.lab 5. Análisis de Clientes
Aún no hay calificaciones
3.lab 5. Análisis de Clientes
5 páginas
TALLER PRACTICO vs2 Iris - Arff (Roles - Outliers)
Aún no hay calificaciones
TALLER PRACTICO vs2 Iris - Arff (Roles - Outliers)
10 páginas
Produto Final
Aún no hay calificaciones
Produto Final
13 páginas
Elección de Funciones Con Sklearn - Feature - Selection
Aún no hay calificaciones
Elección de Funciones Con Sklearn - Feature - Selection
14 páginas
Taller - 4 - Entregable - Grupo9
Aún no hay calificaciones
Taller - 4 - Entregable - Grupo9
28 páginas
RESUMEN FINAL Primer Parcial
Aún no hay calificaciones
RESUMEN FINAL Primer Parcial
14 páginas
Correlacion Lineal
Aún no hay calificaciones
Correlacion Lineal
27 páginas
Módulo I - Estadística Descriptiva
Aún no hay calificaciones
Módulo I - Estadística Descriptiva
72 páginas
Diagnostico Tipo Saber
Aún no hay calificaciones
Diagnostico Tipo Saber
10 páginas
Trabajo Final Estadistica Completo - Steven Madaschi PDF
Aún no hay calificaciones
Trabajo Final Estadistica Completo - Steven Madaschi PDF
17 páginas
Presion Arterial Diastolica-Sistolica
Aún no hay calificaciones
Presion Arterial Diastolica-Sistolica
14 páginas
Prob. Resueltos y Propuestos Cap2
Aún no hay calificaciones
Prob. Resueltos y Propuestos Cap2
18 páginas
Correlación entre Satisfacción Laboral y Desempeño Docente
Aún no hay calificaciones
Correlación entre Satisfacción Laboral y Desempeño Docente
3 páginas
Entregable 2 Información
50% (2)
Entregable 2 Información
6 páginas
Regresión y Correlación Lineal
100% (1)
Regresión y Correlación Lineal
20 páginas
Kohan de Cortada Nuria Dideno Estadistico OCR
100% (1)
Kohan de Cortada Nuria Dideno Estadistico OCR
272 páginas
Articulo Cientifico Joe PDF
Aún no hay calificaciones
Articulo Cientifico Joe PDF
6 páginas
Bioestadist 2do Parcial
Aún no hay calificaciones
Bioestadist 2do Parcial
33 páginas
Tipos de Investigación: Exploratoria y Descriptiva
88% (8)
Tipos de Investigación: Exploratoria y Descriptiva
16 páginas
La Ciencia Política Empírica
Aún no hay calificaciones
La Ciencia Política Empírica
16 páginas
Metodología para Estimar TMDA
Aún no hay calificaciones
Metodología para Estimar TMDA
21 páginas
Apuntes de Probabilidad y Estadistica
100% (1)
Apuntes de Probabilidad y Estadistica
70 páginas
Examen de Estadística II: Regresión y Correlación
Aún no hay calificaciones
Examen de Estadística II: Regresión y Correlación
3 páginas
Teoria Distribuciones Bidimensionales
100% (1)
Teoria Distribuciones Bidimensionales
3 páginas
T12 Regresion y Correlación
Aún no hay calificaciones
T12 Regresion y Correlación
64 páginas
Test Pensamiento Cientifico
Aún no hay calificaciones
Test Pensamiento Cientifico
20 páginas
Primer Deber de Adm de La Produccion
Aún no hay calificaciones
Primer Deber de Adm de La Produccion
16 páginas
Estadistic Text
Aún no hay calificaciones
Estadistic Text
30 páginas
Problemas Resueltos de Estadistica II
Aún no hay calificaciones
Problemas Resueltos de Estadistica II
12 páginas
Regresión Múltiple y Análisis de Correlación de Los Gastos en Alimentación de Una Familia Con Base en El Ingreso y Su Tamaño
100% (1)
Regresión Múltiple y Análisis de Correlación de Los Gastos en Alimentación de Una Familia Con Base en El Ingreso y Su Tamaño
9 páginas
Practica Semana 01. METCLI
Aún no hay calificaciones
Practica Semana 01. METCLI
23 páginas
Epa - Alvarez Blas Oscar PDF
100% (1)
Epa - Alvarez Blas Oscar PDF
20 páginas
Regresión Lineal en R: Guía Práctica
Aún no hay calificaciones
Regresión Lineal en R: Guía Práctica
29 páginas
Taller de Ejercicios Propuestos - Correlación de Pearson
Aún no hay calificaciones
Taller de Ejercicios Propuestos - Correlación de Pearson
4 páginas
Análisis de Variables Dicótomas en Econometría
0% (1)
Análisis de Variables Dicótomas en Econometría
20 páginas