0% encontró este documento útil (0 votos)

241 vistas30 páginas

Tuto WEka

Este documento presenta una introducción al software Weka para minería de datos. Weka incluye herramientas para preprocesamiento, clasificación, agrupamiento, reglas de asociación y selección de atributos. Se describe el uso de Weka para resolver problemas de clasificación y agrupamiento utilizando diferentes algoritmos. Finalmente, se aplican reglas de asociación a datos del Titanic para identificar patrones entre variables como clase, edad, sexo y supervivencia.

Cargado por

Alice Princz Robalino

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

241 vistas30 páginas

Tuto WEka

Cargado por

Alice Princz Robalino

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Prctica WEKA

Edwar Javier Herrera Osorio Gestin del Conocimiento. UAN

El entorno de trabajo del Weka

Este software ha sido desarrollado bajo licencia GPL lo cual ha impulsado que sea una de las suites ms utilizadas en el rea en los ltimos aos. La versin 3.5.8 incluye las siguientes caractersticas: Diversas fuentes de datos (ASCII, JDBC). Interfaz visual basado en procesos/flujos de datos (rutas). Distintas herramientas de minera de datos: reglas de asociacin (a priori, Tertius) agrupacin/segmentacin/conglomerado (Cobweb, EM y kmedias), clasificacin (redes neuronales, reglas y rboles de decisin, aprendizaje Bayesiona) y regresin (Regresin lineal, SVM..). Manipulacin de datos (pick & mix, muestreo, combinacin y separacin). Combinacin de modelos (Bagging, Boosting) Visualizacin anterior (datos en mltiples grficas) y posterior (rboles, curvas ROC, curvas de coste). Entorno de experimentos, con la posibilidad de realizar pruebas estadsticas (t-test).

Interface

Como se en la figura anterior en el men aplicaciones encontramos: Simple CLI: Entorno consola para invocar directamente con java a los paquetes de weka. Explorer: Entorno visual que ofrece una interfaz grfica para el uso de los paquetes. Experimenter: Entorno centrado en la automatizacin de tareas de manera que se facilite la realizacin de experimentos a gran escala. KnowledgeFlow: Permite generar proyectos de minera de datos mediante la generacin de flujos de informacin.

Explorer
En esta parte vamos a centrarnos en el entorno Explorer, ya que permite el acceso a la mayora de las funcionalidades integradas en Weka de una manera sencilla.

6 entornos de ejecucin

Preprocess: Incluye las herramientas y filtros para cargar y manipular los datos Classification: Acceso a las tcnicas de clasificacin y regresin Cluster: Integra varios mtodos de agrupamiento Associate: Incluye una pocas tcnicas de reglas de asociacin Select Attributes: Permite aplicar diversas tcnicas para la reduccin del nmero de atributos Visualize: En este apartado podemos estudiar el comportamiento de los datos mediante tcnicas de visualizacin.

Un primer ejemplo: Jugando Tenis

Se van a trabajar con los datos acerca de los das que se ha podido jugar al tenis, dependiendo de diversos aspectos meteorolgicos. El objetivo es poder determinar (predecir) si hoy podremos jugar al tenis. Los datos de que disponemos estn en el fichero: "weather.arff y son los siguientes:

Cargamos el proyecto

Choose en Filter,
Realizar un filtrado de atributos. Cambiar el tipo de los atributos (discretizar o numerizar). Realizar muestreos sobre los datos. Normalizar atributos numricos. Unificar valores de un mismo atributo.

Classify (Algoritmo de Clasificacin)

Bayes. Mtodos basados en el paradigma del aprendizaje de Bayes Funciones. Mtodos matemticos: Redes neuronales, regresiones, SVM Lazy. Mtodos que utilizan el paradigma de aprendizaje perezoso, es decir no construyen un modelo Meta. Mtodos que permiten combinar diferentes mtodos de aprendizaje Trees. Mtodos que aprenden mediante la generacin de rboles de decisin Rules. Mtodos que aprenden modelos que se pueden expresar como reglas.

Classify (Mtodos de Validacin)

Use training set. Con esta opcin Weka entrenar el mtodo con todos los datos disponibles y a posteriori realiza la evaluacin sobre los mismos datos. Supplied test set. Con esta opcin podemos cargar un conjunto de datos (normalmente diferentes a los de aprendizaje) con los cuales se realizar la evaluacin Cross-validation. Se realiza la evaluacin mediante la tcnica de validacin cruzada. En este caso podemos establecer el nmero de pliegues a utilizar. Percentage split. Se define un porcentaje con el que se aprende el modelo. La evaluacin se realiza con los datos restantes.

Resultados

Un problema de clasificacin
En este caso se trata de predecir el tipo de frmaco (drug) que se debe administrar a un paciente afectado de rinitis alrgica segn distintos parmetros/variables. Las variables que se recogen en los historiales clnicos de cada paciente son:
Age: Edad Sex: Sexo BP (Blood Pressure): Tensin sangunea. Cholesterol: nivel de colesterol. Na: Nivel de sodio en la sangre. K: Nivel de potasio en la sangre.

Hay cinco frmacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. Se han recogido los datos del medicamento idneo para muchos pacientes en cuatro hospitales. Se pretende, para nuevos pacientes, determinar el mejor medicamento a probar.

Solucin
En primer lugar vamos a cargar los datos del primer hospital fichero drug1n.arff, ya que al ser el de menor tamao (200 registros), permite hacer ms pruebas inicialmente.

Solucin A

Solucin B
Aplicando el algoritmo Rules-Zero nos da un porcentaje del 45% Aplicando el algoritmo J48 nos da un porcentaje del 97% Se puede mejorar? Con redes neuronales? Uniendo atributos?

Uniendo atributos (1)

Uniendo atributos (2)

Clasificacin Nueva
Hay que decirle que el atributo es drug Clasifica correctamente el 100%?....

Visualizacin

Todos los atributos son necesarios?

Depende del algoritmo de clasificacin si es el de rbol de decisin el escoge los relevantes pero en el native Bayes esto afecta En el ejemplo anterior hacer el experimento

Datos con Native Bayes

Seleccionando atributos
Hay dos tcnica: Los wrappers, y los mtodos de filtro

Funciono?

Clasifico con un 99%

Un problema de agrupacin
La empresa de software para Internet Memolum Web quiere extraer tipologas de empleados, con el objetivo de hacer una poltica de personal ms fundamentada y seleccionar a qu grupos incentivar. Las variables que se recogen de las fichas de los 15 empleados de la empresa son:

Sueldo: sueldo anual en euros. Casado: si est casado o no. Coche: si viene en coche a trabajar (o al menos si lo aparca en el prking de la empresa). Hijos: si tiene hijos. Alq/Prop: si vive en una casa alquilada o propia. Sindic.: si pertenece al sindicato revolucionario de Internet Bajas/Ao: media del n de bajas por ao Antigedad: antigedad en la empresa Sexo: H: hombre, M: mujer. Los datos de los 15 empleados se encuentran en el fichero empleados.arff. Se intenta extraer grupos de entre estos quince empleados.

Solucin

Reglas de Asociacin y Dependencias

Vamos a estudiar ahora los datos del hundimiento del Titanic. Los datos se encuentran en el fichero titanic.arff y corresponden a las caractersticas de los 2.201 pasajeros del Titanic. Estos datos son reales y se han obtenido de: "Report on the Loss of the Titanic (S.S.)" (1990), British Board of Trade Inquiry Report_ (reprint), Gloucester, UK: Allan Sutton Publishing. Para este ejemplo slo se van a considerar cuatro variables:
Clase (0 = tripulacin, 1 = primera, 2 = segunda, 3 = tercera) Edad (1 = adulto, 0 = nio) Sexo (1 = hombre, 0 = mujer) Sobrevivi (1 = s, 0 = no)

Resultado

Entendiendo las reglas

En cada regla, tenemos la cobertura de la parte izquierda y de la regla, as como la confianza de la regla. Podemos conocer alguna regla interesante aunque otras los son menos. Por ejemplo, la regla 1 indica que, como era de esperar toda la tripulacin es adulta. La regla 2 nos indica lo mismo, pero teniendo en cuenta a los varones. Parecidas conclusiones podemos sacar de las reglas 4, 5 y 6. La regla 3 nos indica que los varones que murieron fueron en su mayora adultos (97%). La regla 7 destaca que la mayora que murieron fueron adultos (97%). Y finalmente la 10 informa que la mayora de los muertos fueron hombres (92%). Cabe destacar que la calidad de las reglas de asociacin que aprendamos muchas veces viene lastrada por la presencia de atributos que estn fuertemente descompensados. Por ejemplo, en este caso la escasa presencia de nios provoca que no aparezcan en las reglas de asociacin, ya que las reglas con este temset poseen una baja cobertura y son filtradas. Podemos mitigar parcialmente este fenmeno si cambiamos el mtodo de seleccin de reglas.

Bibliografa
Curso de Doctorado Extraccin Automtica de Conocimiento en Bases de Datos e Ingeniera del Software Universitat Politcnica de Valncia Jos Hernndez Orallo. Csar Ferri Ramrez.

También podría gustarte

Práctica de Minería de Datos con Weka
Aún no hay calificaciones
Práctica de Minería de Datos con Weka
23 páginas
Guía de Uso de Weka para Minería de Datos
Aún no hay calificaciones
Guía de Uso de Weka para Minería de Datos
18 páginas
Análisis de Datos con Weka: Árboles de Decisión
Aún no hay calificaciones
Análisis de Datos con Weka: Árboles de Decisión
8 páginas
Práctica de Minería de Datos Introducción A Weka 1ra Edicion José Hernandez, César Ferri
Aún no hay calificaciones
Práctica de Minería de Datos Introducción A Weka 1ra Edicion José Hernandez, César Ferri
18 páginas
Introducción a Weka en Minería de Datos
Aún no hay calificaciones
Introducción a Weka en Minería de Datos
17 páginas
Introducción a Weka en Minería de Datos
Aún no hay calificaciones
Introducción a Weka en Minería de Datos
18 páginas
Práctica de Minería de Datos con Weka
Aún no hay calificaciones
Práctica de Minería de Datos con Weka
18 páginas
Prácticas de WEKA: Predicción de Tenis y Fármacos
Aún no hay calificaciones
Prácticas de WEKA: Predicción de Tenis y Fármacos
19 páginas
Práctica de Minería de Datos con Weka
Aún no hay calificaciones
Práctica de Minería de Datos con Weka
18 páginas
Análisis de Datos con WEKA
Aún no hay calificaciones
Análisis de Datos con WEKA
17 páginas
Weka: Minería de Datos y Machine Learning
Aún no hay calificaciones
Weka: Minería de Datos y Machine Learning
13 páginas
Weka y OpenRefine: Guía Completa
Aún no hay calificaciones
Weka y OpenRefine: Guía Completa
21 páginas
Manual de Minería de Datos con WEKA
Aún no hay calificaciones
Manual de Minería de Datos con WEKA
20 páginas
Ejercicios Weka PDF
Aún no hay calificaciones
Ejercicios Weka PDF
20 páginas
Ejercicios de Weka en Minería de Datos
Aún no hay calificaciones
Ejercicios de Weka en Minería de Datos
4 páginas
Ejercicio-Weka Ultimo Control
Aún no hay calificaciones
Ejercicio-Weka Ultimo Control
4 páginas
IA M2 Caso Practico
Aún no hay calificaciones
IA M2 Caso Practico
6 páginas
WEKA: Uso en Minería de Datos
Aún no hay calificaciones
WEKA: Uso en Minería de Datos
14 páginas
Weka y Explorer-Guía en Español PDF
Aún no hay calificaciones
Weka y Explorer-Guía en Español PDF
33 páginas
Proyecto de Minería de Datos en Weka
Aún no hay calificaciones
Proyecto de Minería de Datos en Weka
68 páginas
Introducción a WEKA para Data Mining
Aún no hay calificaciones
Introducción a WEKA para Data Mining
14 páginas
IA M2 5 SCO1 Imprimible
Aún no hay calificaciones
IA M2 5 SCO1 Imprimible
45 páginas
Interfaz y Funciones de WEKA
Aún no hay calificaciones
Interfaz y Funciones de WEKA
12 páginas
Conectar Weka a MySQL: Guía Rápida
Aún no hay calificaciones
Conectar Weka a MySQL: Guía Rápida
10 páginas
WEKA v1.0
Aún no hay calificaciones
WEKA v1.0
45 páginas
WEKA: Guía Completa para Archivos ARFF
Aún no hay calificaciones
WEKA: Guía Completa para Archivos ARFF
31 páginas
03 Rapid Miner
Aún no hay calificaciones
03 Rapid Miner
68 páginas
Técnicas de Minería de Datos en Weka
Aún no hay calificaciones
Técnicas de Minería de Datos en Weka
52 páginas
Algoritmos y Uso de Weka en IA
Aún no hay calificaciones
Algoritmos y Uso de Weka en IA
28 páginas
Manual WEKA para Minería de Datos
Aún no hay calificaciones
Manual WEKA para Minería de Datos
21 páginas
Introducción a Weka: Herramienta de ML
Aún no hay calificaciones
Introducción a Weka: Herramienta de ML
8 páginas
Aplicación del Algoritmo J48 en WEKA
Aún no hay calificaciones
Aplicación del Algoritmo J48 en WEKA
3 páginas
Taller de WEKA: Clasificación en Salud
Aún no hay calificaciones
Taller de WEKA: Clasificación en Salud
3 páginas
Wekacompleto 101112011724 Phpapp01
Aún no hay calificaciones
Wekacompleto 101112011724 Phpapp01
146 páginas
Almacenamiento y Preprocesamiento en WEKA
Aún no hay calificaciones
Almacenamiento y Preprocesamiento en WEKA
42 páginas
Preparación de Datos en WEKA
Aún no hay calificaciones
Preparación de Datos en WEKA
10 páginas
Inducción de Árboles de Decisión con WEKA
Aún no hay calificaciones
Inducción de Árboles de Decisión con WEKA
77 páginas
Inducción de Árboles de Decisión en WEKA
Aún no hay calificaciones
Inducción de Árboles de Decisión en WEKA
77 páginas
Análisis de Clustering en WEKA
Aún no hay calificaciones
Análisis de Clustering en WEKA
4 páginas
Introducción al Aprendizaje Automático
Aún no hay calificaciones
Introducción al Aprendizaje Automático
41 páginas
Intro Weka
Aún no hay calificaciones
Intro Weka
47 páginas
Archivos ARFF y Pruebas en Weka
Aún no hay calificaciones
Archivos ARFF y Pruebas en Weka
39 páginas
Practical Data Mining Tutorial 1 - Introduction To The WEKA Explorer v1
Aún no hay calificaciones
Practical Data Mining Tutorial 1 - Introduction To The WEKA Explorer v1
4 páginas
Tutorial Weka 3.6.0: Exploración y Clasificación
Aún no hay calificaciones
Tutorial Weka 3.6.0: Exploración y Clasificación
40 páginas
Tutorial Weka 3.6.0: Guía Básica
Aún no hay calificaciones
Tutorial Weka 3.6.0: Guía Básica
40 páginas
Arboles en Weka
Aún no hay calificaciones
Arboles en Weka
7 páginas
Introducción al WEKA Explorer
Aún no hay calificaciones
Introducción al WEKA Explorer
59 páginas
Introducción a WEKA Explorer en Data Mining
Aún no hay calificaciones
Introducción a WEKA Explorer en Data Mining
59 páginas
FIANZA
Aún no hay calificaciones
FIANZA
6 páginas
Informe de Visita Tecnica Campo Guando
Aún no hay calificaciones
Informe de Visita Tecnica Campo Guando
4 páginas
Libre Comercio: Beneficios y Retos del TLC
Aún no hay calificaciones
Libre Comercio: Beneficios y Retos del TLC
3 páginas
Contabilidad Bancaria: Activos y Pasivos
Aún no hay calificaciones
Contabilidad Bancaria: Activos y Pasivos
99 páginas
Simulación Mediante DWSim de La Producción de Biodiesel y Gasificación de Biomasa de Jatropha Curcas
Aún no hay calificaciones
Simulación Mediante DWSim de La Producción de Biodiesel y Gasificación de Biomasa de Jatropha Curcas
13 páginas
TDR-perfil de Proyecto.
100% (2)
TDR-perfil de Proyecto.
10 páginas
Análisis de Varianza en Métodos Psicológicos
Aún no hay calificaciones
Análisis de Varianza en Métodos Psicológicos
19 páginas
EETT Edificio Puerto Varas para Licitación Rev 01
Aún no hay calificaciones
EETT Edificio Puerto Varas para Licitación Rev 01
55 páginas
2015-05-14 - Región La Pampa - 1177
Aún no hay calificaciones
2015-05-14 - Región La Pampa - 1177
8 páginas
Informe #01 Mapa de Calor 2°
80% (5)
Informe #01 Mapa de Calor 2°
11 páginas
Importancia de las TIC en Educación
Aún no hay calificaciones
Importancia de las TIC en Educación
14 páginas
Especificaciones JMC Vigus 4X4 y 4X2
Aún no hay calificaciones
Especificaciones JMC Vigus 4X4 y 4X2
2 páginas
Informe de Monitoreo #004 - 2018 - Dosimetría - Travimus - Dercocenter S.A.C. - Ate - Taller Chinos
Aún no hay calificaciones
Informe de Monitoreo #004 - 2018 - Dosimetría - Travimus - Dercocenter S.A.C. - Ate - Taller Chinos
14 páginas
Documento Causas de La Deforestación 26 - 07 - 2019 - VF
Aún no hay calificaciones
Documento Causas de La Deforestación 26 - 07 - 2019 - VF
81 páginas
Respuesta a Lista ONU en UAF En Línea
Aún no hay calificaciones
Respuesta a Lista ONU en UAF En Línea
20 páginas
Investigación Las Llaves
Aún no hay calificaciones
Investigación Las Llaves
7 páginas
Sistema de Encendido Clasificacion Tipos y Pruebas02112023
Aún no hay calificaciones
Sistema de Encendido Clasificacion Tipos y Pruebas02112023
7 páginas
Gastronomía y Gestión Empresarial ULCB
Aún no hay calificaciones
Gastronomía y Gestión Empresarial ULCB
2 páginas
Sumario Gaceta Oficial 39.351
Aún no hay calificaciones
Sumario Gaceta Oficial 39.351
1 página
Comprobantes Fiscales y su Regulación
Aún no hay calificaciones
Comprobantes Fiscales y su Regulación
23 páginas
1.2.4.3 Lab - Researching WAN Technologies
Aún no hay calificaciones
1.2.4.3 Lab - Researching WAN Technologies
7 páginas
Ensayos de Calidad en Materiales Asfálticos
Aún no hay calificaciones
Ensayos de Calidad en Materiales Asfálticos
2 páginas
Dibujo Técnico para 5° Básico
Aún no hay calificaciones
Dibujo Técnico para 5° Básico
3 páginas
Informe de Visita Al Hotel Tibisay
100% (1)
Informe de Visita Al Hotel Tibisay
10 páginas
Apelación de Habeas Corpus en Lima
Aún no hay calificaciones
Apelación de Habeas Corpus en Lima
2 páginas
Familia Lógica de Circuitos Integrados
Aún no hay calificaciones
Familia Lógica de Circuitos Integrados
47 páginas
Lesiones cervicales y recesiones gingivales
Aún no hay calificaciones
Lesiones cervicales y recesiones gingivales
13 páginas
Etapas de Desarrollo de Los Grupos
75% (8)
Etapas de Desarrollo de Los Grupos
5 páginas
Caso Clínico de Tiroiditis en Paciente
Aún no hay calificaciones
Caso Clínico de Tiroiditis en Paciente
14 páginas
Bella Boutique: Moda Sostenible y Elegante
Aún no hay calificaciones
Bella Boutique: Moda Sostenible y Elegante
11 páginas