0% encontró este documento útil (0 votos)
74 vistas8 páginas

Aprendizaje Automático: SPAM y SPECTF

Este documento presenta dos problemas de clasificación relacionados con el aprendizaje automático. El primer problema trata de clasificar correos electrónicos como spam o no spam utilizando 58 atributos. El segundo problema trata de clasificar imágenes médicas cardíacas como normales o anormales utilizando 44 atributos continuos y una clase binaria. Para ambos problemas se utilizó el algoritmo FilteredClassifier y se reportaron los resultados de 20 pruebas.

Cargado por

MARTHA SOTO LUNA
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
74 vistas8 páginas

Aprendizaje Automático: SPAM y SPECTF

Este documento presenta dos problemas de clasificación relacionados con el aprendizaje automático. El primer problema trata de clasificar correos electrónicos como spam o no spam utilizando 58 atributos. El segundo problema trata de clasificar imágenes médicas cardíacas como normales o anormales utilizando 44 atributos continuos y una clase binaria. Para ambos problemas se utilizó el algoritmo FilteredClassifier y se reportaron los resultados de 20 pruebas.

Cargado por

MARTHA SOTO LUNA
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Martha Soto Luna 8AITI

1
Martha Soto Luna 8AITI

Índice
1. Introducción al aprendizaje automático............................................................. 2
2. Problema 1: SPAM ........................................................................................... 3
2.1. Nombre: ..................................................................................................... 3
2.2. Información que contiene: .......................................................................... 3
2.3. Atributos que lo conforman:........................................................................ 3
2.4. Número de instancias ................................................................................. 3
2.5. Número de clases que lo van a clasificar: .................................................. 4
2.6. Descripción De Algoritmo Utilizado Para Probarlo: .................................... 4
2.6 Resultados De 20 Pruebas......................................................................... 5
3. Problema 2: datos cardíacos SPECTF ............................................................. 6
3.1. Nombre: ..................................................................................................... 6
3.2. Información que contiene ........................................................................... 6
3.3. Atributos que lo conforman......................................................................... 6
3.4. Número de clases que lo van a clasificar: .................................................. 7
3.5. Número de instancias: ................................................................................ 7
3.6. Descripción De Algoritmo Utilizado Para Probarlo: .................................... 7
3.7. Resultados De 20 Pruebas......................................................................... 8

1. Introducción al aprendizaje automático


El aprendizaje automático es una subcategoría de la inteligencia artificial, y
automatiza eficientemente el proceso de creación de modelos analíticos y permite
que las máquinas se adapten a nuevas situaciones de manera independiente.
Independientemente de que te entusiasme o no la idea de que las redes neuronales
artificiales puedan un día ser lo suficientemente sofisticadas como para replicar la
conciencia humana, existen ventajas prácticas innegables para el aprendizaje
automático, principalmente:

• Gestión inteligente de Big Data: sin la velocidad y la sofisticación del


aprendizaje automático sería imposible procesar y extraer información del

2
Martha Soto Luna 8AITI

enrome volumen y variedad de datos que se generan a medida que los seres
humanos y otras fuerzas ambientales interactúan con la tecnología.
• Dispositivos inteligentes: desde dispositivos móviles que dan seguimiento a
la salud y a los objetivos de bienestar, hasta vehículos de conducción
autónoma y "ciudades inteligentes" con infraestructura que puede reducir
automáticamente desperdicio de tiempo y energía, el Internet de las cosas
(IoT) es una gran promesa, y el aprendizaje automático puede ayudar a dar
sentido a este aumento significativo en los datos.
• Experiencia del consumidor mejorada: el aprendizaje automático permite
que los motores de búsqueda, las aplicaciones web y otras tecnologías
adapten los resultados y las recomendaciones para que coincidan con las
preferencias de los usuarios, creando experiencias personalizadas
agradablemente para los consumidores.

2. Problema 1: SPAM
2.1. Nombre: SPAM E-mail Database
2.2. Información que contiene: Determinar si un correo electrónico
dado es spam o no. Nuestra colección de correos electrónicos no deseados
provino de nuestro administrador de correos y de personas que han enviado
spam. Nuestra colección de no spam El % de los correos electrónicos
provienen de trabajos archivados y correos electrónicos personales y, por lo
tanto, la palabra 'george' y el código de área '650' son indicadores de no
spam. Estos son útiles al construir un personalizado filtro de spam. Uno
tendría que cegar tal no-spam indicadores u obtener una colección muy
amplia de no spam para generar un filtro de spam de propósito general.
2.3. Atributos que lo conforman: 58 (57 continuos, 1 etiqueta de clase
nominal)
2.4. Número de instancias: 4601 (1813 Spam = 39.4%)
Información de atributos:
La última columna de 'spambase.data' indica si el correo electrónico fue
considerado spam (1) o no (0), es decir, correo electrónico comercial no
solicitado.
La mayoría de los atributos indican si una palabra o
El carácter % aparecía con frecuencia en el correo electrónico. La longitud de
ejecución Los atributos (55-57) miden la longitud de las secuencias de
secuencias letras mayúsculas. Para las medidas estadísticas de cada atributo,
ver el final de este archivo. Aquí están las definiciones de los atributos:

3
Martha Soto Luna 8AITI

48 atributos reales continuos [0,100] de tipo word_freq_WORD = porcentaje de


palabras en el correo electrónico que coinciden con PALABRA, es decir, 100 *
(número de veces que aparece la PALABRA en el correo electrónico) / número
total de palabras en el correo electrónico. Una "palabra" en este caso es
cualquier cadena de caracteres alfanuméricos limitada por caracteres no
alfanuméricos caracteres o fin de cadena.
6 atributos reales continuos [0,100] de tipo char_freq_CHAR = porcentaje de
caracteres en el correo electrónico que coinciden con CHAR, es decir, 100 *
(número de ocurrencias de CHAR) / caracteres totales en el correo electrónico
1 atributo real continuo [1,...] de tipo capital_run_length_average= longitud
promedio de secuencias ininterrumpidas de letras mayúsculas
1 entero continuo [1,...] atributo de tipo capital_run_length_longest= longitud de
la secuencia ininterrumpida más larga de letras mayúsculas
1 entero continuo [1,...] atributo de tipo capital_run_length_total= suma de
longitud de secuencias ininterrumpidas de letras mayúsculas= número total de
letras mayúsculas en el correo electrónico
1 atributo de clase {0,1} nominal de tipo spam= indica si el correo electrónico se
consideró spam (1) o no (0), es decir, correo electrónico comercial no solicitado.
2.5. Número de clases que lo van a clasificar: 2
correo basura 1813 (39,4%)
No spam 2788 (60,6%)

2.6. Descripción De Algoritmo Utilizado Para Probarlo:


FilteredClassifier
Este Clasificador META debe configurarse para usar IBK como Clasificador y
Addnoise como Filtro. El FilteredClassifier aplica el filtro a los datos antes de
ejecutar el algoritmo de aprendizaje. Esto se hace en dos lotes: primero los datos
de entrenamiento y luego la prueba datos.

4
Martha Soto Luna 8AITI

2.6 Resultados De 20 Pruebas:

5
Martha Soto Luna 8AITI

3. Problema 2: datos cardíacos SPECTF


3.1. Nombre: spectf.tren.arff
3.2. Información que contiene: El conjunto de datos describe el
diagnóstico de imágenes cardíacas de tomografía computarizada por
emisión de un solo protón (SPECT). Cada uno de los pacientes se clasifica
en dos categorías: normal y anormal. La base de datos de 267 conjuntos de
imágenes SPECT (pacientes) se procesó para extraer características que
resumen las imágenes SPECT originales. Como resultado, se crearon 44
patrones de funciones continuas para cada paciente.
3.3. Atributos que lo conforman: 45 atributos. (44 continuos + 1 clase
binaria)
1. OVERALL_DIAGNOSIS: 0,1 (atributo de clase, binario)
2. F1R: continuo (recuento en ROI (región de interés) 1 en resto)
3. F1S: continuo (recuento en ROI 1 en estrés)
4. F2R: continuo (cuenta en ROI 2 en reposo)
5. F2S: continuo (recuento en ROI 2 en estrés)
6. F3R: continuo (cuenta en ROI 3 en reposo)
7. F3S: continuo (recuento en ROI 3 en estrés)
8. F4R: continuo (cuenta en ROI 4 en reposo)
9. F4S: continuo (recuento en ROI 4 en estrés)
10. F5R: continuo (recuento en ROI 5 en reposo)
11. F5S: continuo (recuento en ROI 5 en estrés)
12. F6R: continuo (recuento en ROI 6 en reposo)
13. F6S: continuo (recuento en ROI 6 en estrés)
14. F7R: continuo (cuenta en ROI 7 en reposo)
15. F7S: continuo (recuento en ROI 7 en estrés)
16. F8R: continuo (recuento en ROI 8 en reposo)
17. F8S: continuo (recuento en ROI 8 en estrés)
18. F9R: continuo (cuenta en ROI 9 en reposo)
19. F9S: continuo (recuento en ROI 9 en estrés)
20. F10R: continuo (recuento en ROI 10 en reposo)
21. F10S: continuo (recuento en ROI 10 en estrés)
22. F11R: continuo (recuento en ROI 11 en reposo)
23. F11S: continuo (recuento en ROI 11 en estrés)
24. F12R: continuo (recuento en ROI 12 en reposo)
25. F12S: continuo (recuento en ROI 12 en estrés)
26. F13R: continuo (recuento en ROI 13 en reposo)
27. F13S: continuo (recuento en ROI 13 en estrés)
28. F14R: continuo (recuento en ROI 14 en reposo)
29. F14S: continuo (recuento en ROI 14 en estrés)
30. F15R: continuo (recuento en ROI 15 en reposo)
31. F15S: continuo (recuento en ROI 15 en estrés)

6
Martha Soto Luna 8AITI

32. F16R: continuo (recuento en ROI 16 en reposo)


33. F16S: continuo (recuento en ROI 16 en estrés)
34. F17R: continuo (recuento en ROI 17 en reposo)
35. F17S: continuo (recuento en ROI 17 en estrés)
36. F18R: continuo (recuento en ROI 18 en reposo)
37. F18S: continuo (recuento en ROI 18 en estrés)
38. F19R: continuo (recuento en ROI 19 en reposo)
39. F19S: continuo (recuento en ROI 19 en estrés)
40. F20R: continuo (recuento en ROI 20 en reposo)
41. F20S: continuo (recuento en ROI 20 en estrés)
42. F21R: continuo (recuento en ROI 21 en reposo)
43. F21S: continuo (recuento en ROI 21 en estrés)
44. F22R: continuo (recuento en ROI 22 en reposo)
45. F22S: continuo (recuento en ROI 22 en estrés)
3.4. Número de clases que lo van a clasificar:
Datos completos
Clase # ejemplos
0 55
1 212
-- conjunto de datos de entrenamiento
Clase # ejemplos
0 40
1 40
-- conjunto de datos de prueba
Clase # ejemplos
0 15
1 172
3.5. Número de instancias: 267
3.6. Descripción De Algoritmo Utilizado Para Probarlo:
M5P
Implementa árboles m5
En Weka, las prestaciones del algoritmo M5’ son las siguientes: - nombre de la
clase: weka.classifiers.m5.M5Prime - no puede manejar instancias ponderadas
por pesos - no puede ser actualizado de forma incremental (soportar añadir
nuevos datos sin reclasificar a los anteriores) - cuando se encuentra con un valor
de atributo no determinado, M5’ reemplaza dicho hueco por la media global o la
moda del conjunto de datos de entrenamiento antes de que se construyera el
árbol. Permite diferentes tipos de salida: árbol modelo, árbol de decisión sin
modelos lineales en las hojas y regresión lineal. Presenta un proceso automático
de suavizado que puede ser deshabilitado y también se puede controlar la
profundidad del podado, así como la cantidad de información a la salida.

7
Martha Soto Luna 8AITI

Sin embargo este problema ha tenido pruebas con el algoritmo de aprendizaje


automático CLIP3 logró una precisión del 77,0 %.
referencias CLIP3:
Cios, KJ, Boda, DK y Liu, N.
CLIP3: cubre el aprendizaje mediante programación entera.
Kybernetes, 26:4-5, págs. 513-536, 1997
3.7. Resultados De 20 Pruebas:

También podría gustarte