Aprendizaje Automático: SPAM y SPECTF

Este documento presenta dos problemas de clasificación relacionados con el aprendizaje automático. El primer problema trata de clasificar correos electrónicos como spam o no spam utilizando 58 atributos. El segundo problema trata de clasificar imágenes médicas cardíacas como normales o anormales utilizando 44 atributos continuos y una clase binaria. Para ambos problemas se utilizó el algoritmo FilteredClassifier y se reportaron los resultados de 20 pruebas.

Cargado por

MARTHA SOTO LUNA

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

74 vistas8 páginas

Aprendizaje Automático: SPAM y SPECTF

Cargado por

MARTHA SOTO LUNA

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Martha Soto Luna 8AITI

1
Martha Soto Luna 8AITI

Índice
1. Introducción al aprendizaje automático............................................................. 2
2. Problema 1: SPAM ........................................................................................... 3
2.1. Nombre: ..................................................................................................... 3
2.2. Información que contiene: .......................................................................... 3
2.3. Atributos que lo conforman:........................................................................ 3
2.4. Número de instancias ................................................................................. 3
2.5. Número de clases que lo van a clasificar: .................................................. 4
2.6. Descripción De Algoritmo Utilizado Para Probarlo: .................................... 4
2.6 Resultados De 20 Pruebas......................................................................... 5
3. Problema 2: datos cardíacos SPECTF ............................................................. 6
3.1. Nombre: ..................................................................................................... 6
3.2. Información que contiene ........................................................................... 6
3.3. Atributos que lo conforman......................................................................... 6
3.4. Número de clases que lo van a clasificar: .................................................. 7
3.5. Número de instancias: ................................................................................ 7
3.6. Descripción De Algoritmo Utilizado Para Probarlo: .................................... 7
3.7. Resultados De 20 Pruebas......................................................................... 8

1. Introducción al aprendizaje automático

El aprendizaje automático es una subcategoría de la inteligencia artificial, y
automatiza eficientemente el proceso de creación de modelos analíticos y permite
que las máquinas se adapten a nuevas situaciones de manera independiente.
Independientemente de que te entusiasme o no la idea de que las redes neuronales
artificiales puedan un día ser lo suficientemente sofisticadas como para replicar la
conciencia humana, existen ventajas prácticas innegables para el aprendizaje
automático, principalmente:

• Gestión inteligente de Big Data: sin la velocidad y la sofisticación del

aprendizaje automático sería imposible procesar y extraer información del

2
Martha Soto Luna 8AITI

enrome volumen y variedad de datos que se generan a medida que los seres
humanos y otras fuerzas ambientales interactúan con la tecnología.
• Dispositivos inteligentes: desde dispositivos móviles que dan seguimiento a
la salud y a los objetivos de bienestar, hasta vehículos de conducción
autónoma y "ciudades inteligentes" con infraestructura que puede reducir
automáticamente desperdicio de tiempo y energía, el Internet de las cosas
(IoT) es una gran promesa, y el aprendizaje automático puede ayudar a dar
sentido a este aumento significativo en los datos.
• Experiencia del consumidor mejorada: el aprendizaje automático permite
que los motores de búsqueda, las aplicaciones web y otras tecnologías
adapten los resultados y las recomendaciones para que coincidan con las
preferencias de los usuarios, creando experiencias personalizadas
agradablemente para los consumidores.

2. Problema 1: SPAM
2.1. Nombre: SPAM E-mail Database
2.2. Información que contiene: Determinar si un correo electrónico
dado es spam o no. Nuestra colección de correos electrónicos no deseados
provino de nuestro administrador de correos y de personas que han enviado
spam. Nuestra colección de no spam El % de los correos electrónicos
provienen de trabajos archivados y correos electrónicos personales y, por lo
tanto, la palabra 'george' y el código de área '650' son indicadores de no
spam. Estos son útiles al construir un personalizado filtro de spam. Uno
tendría que cegar tal no-spam indicadores u obtener una colección muy
amplia de no spam para generar un filtro de spam de propósito general.
2.3. Atributos que lo conforman: 58 (57 continuos, 1 etiqueta de clase
nominal)
2.4. Número de instancias: 4601 (1813 Spam = 39.4%)
Información de atributos:
La última columna de 'spambase.data' indica si el correo electrónico fue
considerado spam (1) o no (0), es decir, correo electrónico comercial no
solicitado.
La mayoría de los atributos indican si una palabra o
El carácter % aparecía con frecuencia en el correo electrónico. La longitud de
ejecución Los atributos (55-57) miden la longitud de las secuencias de
secuencias letras mayúsculas. Para las medidas estadísticas de cada atributo,
ver el final de este archivo. Aquí están las definiciones de los atributos:

3
Martha Soto Luna 8AITI

48 atributos reales continuos [0,100] de tipo word_freq_WORD = porcentaje de

palabras en el correo electrónico que coinciden con PALABRA, es decir, 100 *
(número de veces que aparece la PALABRA en el correo electrónico) / número
total de palabras en el correo electrónico. Una "palabra" en este caso es
cualquier cadena de caracteres alfanuméricos limitada por caracteres no
alfanuméricos caracteres o fin de cadena.
6 atributos reales continuos [0,100] de tipo char_freq_CHAR = porcentaje de
caracteres en el correo electrónico que coinciden con CHAR, es decir, 100 *
(número de ocurrencias de CHAR) / caracteres totales en el correo electrónico
1 atributo real continuo [1,...] de tipo capital_run_length_average= longitud
promedio de secuencias ininterrumpidas de letras mayúsculas
1 entero continuo [1,...] atributo de tipo capital_run_length_longest= longitud de
la secuencia ininterrumpida más larga de letras mayúsculas
1 entero continuo [1,...] atributo de tipo capital_run_length_total= suma de
longitud de secuencias ininterrumpidas de letras mayúsculas= número total de
letras mayúsculas en el correo electrónico
1 atributo de clase {0,1} nominal de tipo spam= indica si el correo electrónico se
consideró spam (1) o no (0), es decir, correo electrónico comercial no solicitado.
2.5. Número de clases que lo van a clasificar: 2
correo basura 1813 (39,4%)
No spam 2788 (60,6%)

2.6. Descripción De Algoritmo Utilizado Para Probarlo:

FilteredClassifier
Este Clasificador META debe configurarse para usar IBK como Clasificador y
Addnoise como Filtro. El FilteredClassifier aplica el filtro a los datos antes de
ejecutar el algoritmo de aprendizaje. Esto se hace en dos lotes: primero los datos
de entrenamiento y luego la prueba datos.

4
Martha Soto Luna 8AITI

2.6 Resultados De 20 Pruebas:

5
Martha Soto Luna 8AITI

3. Problema 2: datos cardíacos SPECTF

3.1. Nombre: spectf.tren.arff
3.2. Información que contiene: El conjunto de datos describe el
diagnóstico de imágenes cardíacas de tomografía computarizada por
emisión de un solo protón (SPECT). Cada uno de los pacientes se clasifica
en dos categorías: normal y anormal. La base de datos de 267 conjuntos de
imágenes SPECT (pacientes) se procesó para extraer características que
resumen las imágenes SPECT originales. Como resultado, se crearon 44
patrones de funciones continuas para cada paciente.
3.3. Atributos que lo conforman: 45 atributos. (44 continuos + 1 clase
binaria)
1. OVERALL_DIAGNOSIS: 0,1 (atributo de clase, binario)
2. F1R: continuo (recuento en ROI (región de interés) 1 en resto)
3. F1S: continuo (recuento en ROI 1 en estrés)
4. F2R: continuo (cuenta en ROI 2 en reposo)
5. F2S: continuo (recuento en ROI 2 en estrés)
6. F3R: continuo (cuenta en ROI 3 en reposo)
7. F3S: continuo (recuento en ROI 3 en estrés)
8. F4R: continuo (cuenta en ROI 4 en reposo)
9. F4S: continuo (recuento en ROI 4 en estrés)
10. F5R: continuo (recuento en ROI 5 en reposo)
11. F5S: continuo (recuento en ROI 5 en estrés)
12. F6R: continuo (recuento en ROI 6 en reposo)
13. F6S: continuo (recuento en ROI 6 en estrés)
14. F7R: continuo (cuenta en ROI 7 en reposo)
15. F7S: continuo (recuento en ROI 7 en estrés)
16. F8R: continuo (recuento en ROI 8 en reposo)
17. F8S: continuo (recuento en ROI 8 en estrés)
18. F9R: continuo (cuenta en ROI 9 en reposo)
19. F9S: continuo (recuento en ROI 9 en estrés)
20. F10R: continuo (recuento en ROI 10 en reposo)
21. F10S: continuo (recuento en ROI 10 en estrés)
22. F11R: continuo (recuento en ROI 11 en reposo)
23. F11S: continuo (recuento en ROI 11 en estrés)
24. F12R: continuo (recuento en ROI 12 en reposo)
25. F12S: continuo (recuento en ROI 12 en estrés)
26. F13R: continuo (recuento en ROI 13 en reposo)
27. F13S: continuo (recuento en ROI 13 en estrés)
28. F14R: continuo (recuento en ROI 14 en reposo)
29. F14S: continuo (recuento en ROI 14 en estrés)
30. F15R: continuo (recuento en ROI 15 en reposo)
31. F15S: continuo (recuento en ROI 15 en estrés)

6
Martha Soto Luna 8AITI

32. F16R: continuo (recuento en ROI 16 en reposo)

33. F16S: continuo (recuento en ROI 16 en estrés)
34. F17R: continuo (recuento en ROI 17 en reposo)
35. F17S: continuo (recuento en ROI 17 en estrés)
36. F18R: continuo (recuento en ROI 18 en reposo)
37. F18S: continuo (recuento en ROI 18 en estrés)
38. F19R: continuo (recuento en ROI 19 en reposo)
39. F19S: continuo (recuento en ROI 19 en estrés)
40. F20R: continuo (recuento en ROI 20 en reposo)
41. F20S: continuo (recuento en ROI 20 en estrés)
42. F21R: continuo (recuento en ROI 21 en reposo)
43. F21S: continuo (recuento en ROI 21 en estrés)
44. F22R: continuo (recuento en ROI 22 en reposo)
45. F22S: continuo (recuento en ROI 22 en estrés)
3.4. Número de clases que lo van a clasificar:
Datos completos
Clase # ejemplos
0 55
1 212
-- conjunto de datos de entrenamiento
Clase # ejemplos
0 40
1 40
-- conjunto de datos de prueba
Clase # ejemplos
0 15
1 172
3.5. Número de instancias: 267
3.6. Descripción De Algoritmo Utilizado Para Probarlo:
M5P
Implementa árboles m5
En Weka, las prestaciones del algoritmo M5’ son las siguientes: - nombre de la
clase: weka.classifiers.m5.M5Prime - no puede manejar instancias ponderadas
por pesos - no puede ser actualizado de forma incremental (soportar añadir
nuevos datos sin reclasificar a los anteriores) - cuando se encuentra con un valor
de atributo no determinado, M5’ reemplaza dicho hueco por la media global o la
moda del conjunto de datos de entrenamiento antes de que se construyera el
árbol. Permite diferentes tipos de salida: árbol modelo, árbol de decisión sin
modelos lineales en las hojas y regresión lineal. Presenta un proceso automático
de suavizado que puede ser deshabilitado y también se puede controlar la
profundidad del podado, así como la cantidad de información a la salida.

7
Martha Soto Luna 8AITI

Sin embargo este problema ha tenido pruebas con el algoritmo de aprendizaje

automático CLIP3 logró una precisión del 77,0 %.
referencias CLIP3:
Cios, KJ, Boda, DK y Liu, N.
CLIP3: cubre el aprendizaje mediante programación entera.
Kybernetes, 26:4-5, págs. 513-536, 1997
3.7. Resultados De 20 Pruebas:

También podría gustarte

Introducción al Aprendizaje Automático
100% (1)
Introducción al Aprendizaje Automático
122 páginas
Predicción con Aprendizaje Automático
Aún no hay calificaciones
Predicción con Aprendizaje Automático
20 páginas
Introducción al Aprendizaje Automático
Aún no hay calificaciones
Introducción al Aprendizaje Automático
8 páginas
Introducción al Machine Learning
Aún no hay calificaciones
Introducción al Machine Learning
20 páginas
Aprendizaje Automático
Aún no hay calificaciones
Aprendizaje Automático
4 páginas
Aprendizaje Automatico Con Python PDF
Aún no hay calificaciones
Aprendizaje Automatico Con Python PDF
24 páginas
Proceso de Aprendizaje Automático
Aún no hay calificaciones
Proceso de Aprendizaje Automático
6 páginas
Intro ML
Aún no hay calificaciones
Intro ML
56 páginas
C3 Introducción Al Aprendizaje Automático
Aún no hay calificaciones
C3 Introducción Al Aprendizaje Automático
38 páginas
Comandos de Machine Learning
Aún no hay calificaciones
Comandos de Machine Learning
2 páginas
Hidalgo Ruiz-Capillas Sara TFM PDF
Aún no hay calificaciones
Hidalgo Ruiz-Capillas Sara TFM PDF
79 páginas
Análisis Comparativo de Técnicas de Machine Learning
Aún no hay calificaciones
Análisis Comparativo de Técnicas de Machine Learning
7 páginas
Introducción a Algoritmos de Búsqueda AI
Aún no hay calificaciones
Introducción a Algoritmos de Búsqueda AI
77 páginas
Selección de Funciones PSO para Big Data
Aún no hay calificaciones
Selección de Funciones PSO para Big Data
13 páginas
Fundamentos de Aprendizaje Supervisado
Aún no hay calificaciones
Fundamentos de Aprendizaje Supervisado
26 páginas
Evaluación Semana 1
90% (10)
Evaluación Semana 1
107 páginas
Proyecto ABET
Aún no hay calificaciones
Proyecto ABET
20 páginas
Detección de malware en Android con ML
Aún no hay calificaciones
Detección de malware en Android con ML
5 páginas
Algoritmos de Aprendizaje Automático en Python y R
Aún no hay calificaciones
Algoritmos de Aprendizaje Automático en Python y R
49 páginas
Introducción al Aprendizaje Automático
Aún no hay calificaciones
Introducción al Aprendizaje Automático
89 páginas
Tipos de Aprendizaje Automático Explicados
Aún no hay calificaciones
Tipos de Aprendizaje Automático Explicados
3 páginas
Proyecto de IA: Detección de Spam
Aún no hay calificaciones
Proyecto de IA: Detección de Spam
12 páginas
Introducción al Machine Learning y sus Usos
Aún no hay calificaciones
Introducción al Machine Learning y sus Usos
2 páginas
Representación del Conocimiento en IA
Aún no hay calificaciones
Representación del Conocimiento en IA
7 páginas
Introducción a Machine Learning y Algoritmos
Aún no hay calificaciones
Introducción a Machine Learning y Algoritmos
38 páginas
Aprendizaje Atomatico
Aún no hay calificaciones
Aprendizaje Atomatico
6 páginas
Curso Profesional de Scikit-learn
Aún no hay calificaciones
Curso Profesional de Scikit-learn
115 páginas
Introducción al Aprendizaje Automático
Aún no hay calificaciones
Introducción al Aprendizaje Automático
54 páginas
Evaluación de Algoritmos de Clasificación
Aún no hay calificaciones
Evaluación de Algoritmos de Clasificación
38 páginas
1.2 Casos Prácticos IA
Aún no hay calificaciones
1.2 Casos Prácticos IA
6 páginas
Técnicas de Extracción de Características
Aún no hay calificaciones
Técnicas de Extracción de Características
3 páginas
Introducción al Aprendizaje Automático
Aún no hay calificaciones
Introducción al Aprendizaje Automático
70 páginas
Cousera 1er Modulo
Aún no hay calificaciones
Cousera 1er Modulo
6 páginas
Tipos y Pasos del Aprendizaje Automático
Aún no hay calificaciones
Tipos y Pasos del Aprendizaje Automático
14 páginas
Introducción al Machine Learning y su Impacto
Aún no hay calificaciones
Introducción al Machine Learning y su Impacto
9 páginas
Clase 6 - Teoria General DS, Python - Setup
Aún no hay calificaciones
Clase 6 - Teoria General DS, Python - Setup
67 páginas
Detector Predictivo de Conexiones Fraudulentas
Aún no hay calificaciones
Detector Predictivo de Conexiones Fraudulentas
21 páginas
Guía Completa de Aprendizaje Automático
Aún no hay calificaciones
Guía Completa de Aprendizaje Automático
88 páginas
Big Data y Machine Learning en Decisiones
Aún no hay calificaciones
Big Data y Machine Learning en Decisiones
8 páginas
1.1 Conceptos y Terminologia IA
Aún no hay calificaciones
1.1 Conceptos y Terminologia IA
7 páginas
Clasificación Automática de Diagnósticos Clínicos
Aún no hay calificaciones
Clasificación Automática de Diagnósticos Clínicos
140 páginas
COMPUTACION
Aún no hay calificaciones
COMPUTACION
9 páginas
Material para Estudiante CAIEC (V062021A) SP
100% (2)
Material para Estudiante CAIEC (V062021A) SP
191 páginas
Entrenamiento de Modelos de Regresión
Aún no hay calificaciones
Entrenamiento de Modelos de Regresión
37 páginas
Machine Learning. Trabajo Grupal
Aún no hay calificaciones
Machine Learning. Trabajo Grupal
42 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
44 páginas
Aprendizaje Automatico
Aún no hay calificaciones
Aprendizaje Automatico
14 páginas
Técnicas de Aprendizaje Automático en Flujos de Datos
Aún no hay calificaciones
Técnicas de Aprendizaje Automático en Flujos de Datos
146 páginas
Guía Completa de Aprendizaje de Máquinas
Aún no hay calificaciones
Guía Completa de Aprendizaje de Máquinas
109 páginas
Cs de Datos 2da Parte
Aún no hay calificaciones
Cs de Datos 2da Parte
20 páginas
Aprendizaje Automatico Est
Aún no hay calificaciones
Aprendizaje Automatico Est
62 páginas
Introducción Al Machine Learning - Una Guía Desde Cero
Aún no hay calificaciones
Introducción Al Machine Learning - Una Guía Desde Cero
14 páginas
Inteligencia Artificial Avanzada UOC
0% (1)
Inteligencia Artificial Avanzada UOC
13 páginas
Aprendizaje Automático para Reconocimiento de Actividades
Aún no hay calificaciones
Aprendizaje Automático para Reconocimiento de Actividades
11 páginas
Predicción Temprana de Logro Académico
Aún no hay calificaciones
Predicción Temprana de Logro Académico
145 páginas
Machine Learning Supervisado No Supervisado S8 D
Aún no hay calificaciones
Machine Learning Supervisado No Supervisado S8 D
57 páginas
Manual de Laboratorio de Aprendizaje Automático
Aún no hay calificaciones
Manual de Laboratorio de Aprendizaje Automático
89 páginas
Separata03 ML Uni Fim
Aún no hay calificaciones
Separata03 ML Uni Fim
30 páginas
Minería de Datos Clínicos: Clasificación y Evaluación
Aún no hay calificaciones
Minería de Datos Clínicos: Clasificación y Evaluación
55 páginas
Cálculo de Costos de Producción de Juguetes
Aún no hay calificaciones
Cálculo de Costos de Producción de Juguetes
12 páginas
Seguridad en Internet para Jóvenes
Aún no hay calificaciones
Seguridad en Internet para Jóvenes
4 páginas
Nelly Orientaciones para Resumen de Primaria e Inicial
Aún no hay calificaciones
Nelly Orientaciones para Resumen de Primaria e Inicial
2 páginas
Cojinetes de Bancada Del Cigüeñal - Instalar: Cerrar SIS Pantalla Anterior
Aún no hay calificaciones
Cojinetes de Bancada Del Cigüeñal - Instalar: Cerrar SIS Pantalla Anterior
4 páginas
Modernización de la Gestión Pública en Perú
Aún no hay calificaciones
Modernización de la Gestión Pública en Perú
41 páginas
Ejemplos de Reingenieria de Procesos
67% (3)
Ejemplos de Reingenieria de Procesos
1 página
Motores Eléctricos
100% (3)
Motores Eléctricos
16 páginas
Estrategias Matemáticas para Niños
Aún no hay calificaciones
Estrategias Matemáticas para Niños
2 páginas
Universik - ITIL VERSION 4 Capitulo 4
Aún no hay calificaciones
Universik - ITIL VERSION 4 Capitulo 4
76 páginas
Análisis de Filtro Pasa Bajo en Sistemas
Aún no hay calificaciones
Análisis de Filtro Pasa Bajo en Sistemas
9 páginas
Ingeniería de Calidad y Diseño de Experimentos
Aún no hay calificaciones
Ingeniería de Calidad y Diseño de Experimentos
8 páginas
Comunicacion Con SDR33
Aún no hay calificaciones
Comunicacion Con SDR33
94 páginas
TDR de Chofer Profesional
Aún no hay calificaciones
TDR de Chofer Profesional
2 páginas
Leyes de Semejanza en Bombas Hidráulicas
Aún no hay calificaciones
Leyes de Semejanza en Bombas Hidráulicas
34 páginas
COSMETOLOGÍA
Aún no hay calificaciones
COSMETOLOGÍA
4 páginas
Contabilidad y Desafíos de la IA
Aún no hay calificaciones
Contabilidad y Desafíos de la IA
11 páginas
Pasos para Mantenimiento Correctivo
Aún no hay calificaciones
Pasos para Mantenimiento Correctivo
3 páginas
Husqvarna Catalogo 2016 PDF
Aún no hay calificaciones
Husqvarna Catalogo 2016 PDF
66 páginas
E-commerce: Plataforma para Empresas
Aún no hay calificaciones
E-commerce: Plataforma para Empresas
6 páginas
Ejercicios de Sistemas de Potencia I
100% (1)
Ejercicios de Sistemas de Potencia I
10 páginas
Libro de Blender
Aún no hay calificaciones
Libro de Blender
11 páginas
Peritaje Contable. Uso de La IA para Detectar Los Fraudes - El Peruano 19.09.24 - 7.
Aún no hay calificaciones
Peritaje Contable. Uso de La IA para Detectar Los Fraudes - El Peruano 19.09.24 - 7.
1 página
Calculo de Tuberia Forzada de Una Central Hidroelectrica-Yamin Santiago Pastrana Ramirez
Aún no hay calificaciones
Calculo de Tuberia Forzada de Una Central Hidroelectrica-Yamin Santiago Pastrana Ramirez
17 páginas
Tecnología de Información en UPS
Aún no hay calificaciones
Tecnología de Información en UPS
6 páginas
Instrucciones Máquina de Coser Alfa 20
100% (1)
Instrucciones Máquina de Coser Alfa 20
80 páginas
Modelado 3D As-Built con BIM
Aún no hay calificaciones
Modelado 3D As-Built con BIM
114 páginas
Diseño de Robot Hexápodo Autónomo
Aún no hay calificaciones
Diseño de Robot Hexápodo Autónomo
2 páginas
Factorización y Estructuras Algebraicas
Aún no hay calificaciones
Factorización y Estructuras Algebraicas
15 páginas
Hoja de Datos VA521 ESP
Aún no hay calificaciones
Hoja de Datos VA521 ESP
2 páginas
Inspección de Plataformas Marinas Fijas
100% (1)
Inspección de Plataformas Marinas Fijas
54 páginas