100% encontró este documento útil (3 votos)
2K vistas277 páginas

Dataminingcompressed 191022013031 PDF

Cargado por

Nena Indu
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (3 votos)
2K vistas277 páginas

Dataminingcompressed 191022013031 PDF

Cargado por

Nena Indu
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

\-

Alfredo Daza Vergaray

,
MINERIA DE DATOS
MINERiA DE DATOS

Peru · Mexico . Colombia . Chile . Ecu dor . E paiia . Bolivi<1 - Uruguay · Guat rnala - Costa Rica
Data mining
Minerfa de datos
Autor: Atfredo Daza Vergaray

e Derechos de autor registrados:


Empresa Editora Macro EIRL

~ Oerechos de edici6n, arte grafico y diagramaci6n reservados:


Empresa Ed itora Macro EIRL

Coordinaci6n de edici6n:
Magaly Ramon Quiroz

Diseno de portada:
Rudy Herrera Torres

Correcci6n de estilo:
Martin Vargas Canchanya

Oiagramaci6n:
Julissa Ventocilla Fernandez

Edici6n a cargo de:


© Empresa Editora Macro EIRL
Av. Paseo de la Republica N.• 5613, Miraflores, Lima, Peru

(. Telefono: (511) 748 0560


2l E-mail: [email protected]
~ Pagina web: www.edrtorialmacro.com

Primera edici6n: julio 2016


Tiraje: 1200 ejemplares

lmpresi6n
Talleres graficos de la Empresa Editora Macro EIRL
Jr. San Agustin N.° 612-624, Surquillo, Lima, Peru

ISBN N.° 978-612-304-417-6


Hecho el dep6sito legal en la Biblioteca Nacional del Peru N." 2016-08276

Prohibida la reproducci6n parcial o total, por cualquier medic o metodo, de este libro sin previa
autorizaci6n de la Empresa Editora Macro EIRL.
Alfredo Daza Vergaray
lngeniero de Sistemas e Informatica egresado de la Universidad Nacional del Santa,
cuenta con estudios de Doctorado en lngenierfa de Sistemas en la Universidad
Nacional de lngenierfa (UNI}. Especialista en el manejo de bases de datos, en data
warehouse yen sistemas de gesti6n de datos como SQL Server y Oracle.

A lo largo de su trayectoria profesional se ha dedicado activamente a la docencia en


diversas instituciones publicas y privadas. Asimismo, ha trabajado como consulter,
analista de sistemas y capacitador en temas de informatica. Actualmente, es
profesor en la Facultad de lngenierfa de la Universidad Cesar Vallejo.

Entre sus areas de interes estan el uso de las tecnologfas de la informaci6n


en el ambito empresarial (base de datos, data warehouse, minerfa de datos,
text mining, web mining y big data) y la implementaci6n de herramientas de
software para el sector educativo.
Dedicatoria
Este libro esta dedicado a m1· pa d re Alfredo Daza Vasquez por ser un eJemplo a
seguir, por todos los maravillosos va lores que me ensen6 y por la fu erza que e dio
para poder afrontar los mementos mas dificiles que me tocaron vivi r. Ta mbien es a
ded icado a mi madre Rosa Margarita Vergaray Armijo, quien, aunque nu ca estu o
ffsicamente, permaneci6 en mi mente yen mi coraz6n. A ella, en donde sea que se
encuentre quiero que sepa que todos los dias la siento en mi coraz6n.

Dedico este libro, ademas, a mi hermana Ana Rosa Daza Verga ray, quien es na
persona a la que respeto y admire mucho por los consejos que me brind6 en
diferentes etapas de mi vida y por ser alguien a quien siempre toma re coma ejemplo
para poder mejorar siempre.

Tambien quisiera dedicarle este Ii bro a mi esposa Nataly Yessenia Risco Bocanegra, a
quien admiro y me siento orgulloso. A ella nunca me cansare de decirle que la amo
y de agradecerle por ser paciente mientras yo cumplia mis met as y por darme dos
hermosos hijos que me recuerdan a ella cada vez que los miro.

Por ultimo, quisiera dedicar este libro a mi hijo Aaron Alfredo Daza Risco, qu ien fue
mi inspiraci6n para poder seguir estudiando cuando todos pensaban que habia
enterrado mis suefios; con el pod re decir que lo logramos juntos en una et apa de la
vida. Por otro lado, tambien tengo muy presente a mi hijo Luis Alfredo Daza Risco,
quien es un regalo que Dios me dio para poder veneer una etapa muy dificil de mi
vida en la cual el fue mi primer apoyo con sus tiernas Y dulces palabras que me hacian
reir, y por acompafiarme mientras escribia el Ii bro e imitarme con una sonrisa cuando

tecleaba en la laptop.

Gracias a Dios por poner en mi camino a estas personas maravillosas y darme la


alegria de poder cumplir mis suefios a tan temprana edad Y poder decir que lo logre
antes de haber terminado mi camino.
I
Il
I
l

Agradecirnientos
Agradezco a la Universidad Cesar Vallejo por permitirme mejorar profesionalmente y
realizar trabajos de investigaci6n en el campo de la mineria de datos ya la Universidad
Nacional de lngenierfa por incentivarme a investigar este tema, el cual forma parte de
mi tesis doctoral en lngenieria de Sistemas.
l: nceptos b11si 'O ~ de mineda de dato"- .......................... ...... 1
at ... .......................... .... .......... ..... ................. ............ .................................. 15
DD .................................... ......................... ................... .. 1
RI P ...... ........ .......... ...... .. .. ....................... ................. ........ ..... ... ... ............... 17
e .......................................... ..... .... ......... .............. ......... ....... .................................. .. 20
MCl1<1e1l'O hibrid .................... ................................... ....... ................... ................................. 20
icci · n ...................................................................... .......................................... ... ....... 21
,n;,,~de da (d ta ~vareh use) ....................................... ........................... ....... ........ 21

men .................................................................................................................................. 22

LO --= T nicns y aplic d · n d la n1inerfa. d e datos ........................ 25


elos de mineria de datos ..................................... ....................................................... 27
de mineria de datos ........................................................................................... 27

i a i "ndelamineriadedatos ...................................................................................... 37
.. 1 i eria e d t sen la educa ion .................................................... ... ..................... 39

e men ....................................................................................................................... ............57

PITULO 3: Presentaci6n gene.ml de SPSS Clen1entine ............................ 61


· 1 SP Oementine ......................................................................................................... ...... 63
3 . .1 tor bli ............................ .......... ............................. ........ ....... ....................... 63
.1. CRM ................................... ........................... ........................... .. ....... ................. ...... 64
.1.3 e mii ing ....... ................. ........................................................... ......... ...... ........... 64
.4 Desarroll de farnlacos ....................................................................... .. .................. 5

Resu en .................................................................................................... .............................. 66

CAP' LO 4: Inte.rftu y <.."Utegorias de SPSS Clen1entine ............................ 67


'll Elementos de la interfaz de SPSS Clementine .................................................................. 69
", l , Q I entine treanl an ....................................... .............................................. 69
41. Nod ._ P lette .............. ............................................................................................. 70
''-1.3 e-n,entine M nager ...................... ..................... ............. ... ........ •... •..... •••.... •.. ••.. •.. 70
4.1.4 Clementine Pro ye ts ................................... .. ..................... ••.... •••.... -- .... ·· .. · ·•··· --·.... · 7
....... ...... .... ........... ... .. ...... ............. 7
. d SPSS Clementine.... ... .......................... ... 3
4.2 Categonas e .. .. ... .... ..... ........... ........... ........... .. .. .. .. ........... 74
4.2.1 Categorfa Source........................ ......... ..... ....... .. .............. ..... ............ ·,
c t oria Record Ops ............ .... .. ............... .......... . ····· S
4.2.2 a eg ................. ...... ... ...... .... .... ............ ...... 75
.2.3 categoria Field Ops...... ........... ................ .. ... ............... .. ......... .. ................. ··
4
4.2.4 Categoria Output................................. .. ................ .. ...76
4.2.5 Categoria Graphs ................................................... ............................ .. ...... .... ......... 77
4.2.6 Categoria Modeling ......... .. .. .. ....................... ... ......... .. ... ... ······ ·· .................... ·· ......... 78
4 .2.7 Categoria Export ............................................................................ ············· ···• ·...... 79

Resumen ................ ... ................................................................................. ... .... ............ ........... 80

CAPITULO 5: Instalaci6n de SPSS Clementine ·· · · ··· · · ·.. · · ·· ·· · ·· ·· · · · · · ·· · · ·· ·........ 81


5.1 lnstalaci6n del programa SPSS Clementine ....................................................... ...... ......... 83
5.1.1 Pases para la instalaci6n del programa SPSS Clementine .. .................... ................ 83

Resumen ................................................................................................................................... 92

CAPiTULO 6: Aplicaciones con diferentes tecnicas de mineria de datos ........ 93


6.1 Caso n. 1: Predicci6n de juego de tenis (arboles de decision) ......................................... 95
0

6.2 Caso n. 2: Predicci6n de planta iris ................................................................................ 109


0

6.3 Caso n. 3: Predicci6n de farmacos ................................................................................. 122


0

6.4 Caso n. 4: Problemas de cluster (caso empleados Memolum Web) ............ .................. 136
0

6.5 Cason.° 5: Agrupamientos en relaci6n a las ventas ........................................................ 141


6.6 Caso n. 6: Datos err6neos y faltantes (caso empleados Memolum Web) ...................... 147
0

0
6.7 Caso n. 7: Obtener y transformar datos a traves de ODBC
(conexi6n de base de datos abierta) ............................................................. .166
0
6.8 Caso n. 8: Catalog_forecast (series de tiempo) ......................... ..................................... 176
0
6.9 Caso n. 9: Computer hardware data set .........................................................................181
0
6.10 Caso n. 10: Detecci6n de fraude .................................................................................. 187
0
6.11 Caso n. 11: Validaci6n del modelo Drug con datos nuevos 195
6.12 Caso n. 12: lntegraci6n y partici6n de datos ............................................................... 200
0

613 ° .. .......................................
6.14 CCaso n.o 13: Col.um~~ vertebral (partici6n de datos) .....................................................210
· aso n. 14: Vahdac,on cruzada.................................. 220
6.15 Caso n.o 15: Trabajar con pocos registros ... .. ................................................. 224
6.16 Caso n.o 16: Reglas de asociaci6n y depend~~~i~........................................................... 233
6.17 Cason o 17· Reg . , I , . .. ...................................................... .
6.18 Caso n.o 18·· Predr~s,~~ og1stica (telecomunicaciones churn) ........................................ 243
· · 1cc1on secuencial S4
6 ·19 Caso n·o 19: Exporta · ' d ..... .. .... .. .... .... .. .. .. .. .. .. . .. .. . ....... · .. · ...................... ·.. .. ... 2
6 20 o . c1on e modelos y resultados. 261
. Cason. 20: Series de tiempo (pronosticar) .......................................................267
Resumen .................................................................. .
................................................................... 279
BIBLIOGRAFfA ............................................................. .
.......................................... 282
·····································································
lntroducci6n
, I it t'll<l t' t1h,s ,· )1)$l 1lll yi' llll ,l pi,l Hr,l de .in,\li ,is ~lie p rmil: obl ener un
,--. t'II 11 , :I c- )n •i1 l it' ll l l' 111 1prn t11nk ,1 p.1rtir del mJn jo de la inforrnacion
'='' 1\H ,, dl' uth1 , 1 1,111 ,1 :;t ci t' t ,t ~. Fl bjc tivo u, , t, li bro cs ofr cer al lector
t 1lsi ' l' ·t c1 ilcll idad prira, media nt su apli acion, obtener
ir n m ls pr f rn1 ul rir pr di cion a partir de las cua les poder
u v z. lri t rna ci d i i n s c1I int rior de una empresa.

El s nt "' lib e cii id n s .i apftulos. En el primero se definiran algu nos


n ~ t - vin ul d s ci la 1ninena d datos, asi como tamb ien los pasos de la
d I 1a RI P, I m · u ada n I mercado y aquella con la cu al actualmente
se plic ci nes tanto a nivel academico como empresarial.

En el se und cap1tulo se explicara que es un modelo de mineria de datos y


se mencionaran las tecnicas mas usadas en este campo tales coma las arboles
de decision v las redes neuronales. Por otro lado, se mencionaran tambien
los campos en los que la mineria de datos ha sido aplicada y se comentaran
algunas investigaciones hechas a nivel mundial con esta herramienta en cuanto
al ambito de la educacion superior.

En el tercer capitulo se describiran las caracterfsticas del software SPSS


Clementine, el cual constituye hoy en dfa una de las herramientas mas populares
en el mercado para elaborar aplicaciones de minerfa de datos. Al mismo tiempo,
y coma complemento de lo anterior, se detallaran algunas de las contribuciones
que este programa viene hacienda en distintos sectores coma la administracion
publica, la actividad de CRM, el web mining y la bioinformatica.
En el cuarto capitulo se explicaran las partes principales del entorno del software
SPSS Clementine. Tambien se definiran y se detallaran las formas de emplear los
nodos mas usados presentes en cad a una de las categori as y subcategorias de
su interfaz, las cuales se caracterizan por permitir armar un proyecto como si se
tratara de un flujograma.

En el quinto capitulo se ensenaran las pasos correctos de instalaci6n del SPSS


Clementine. Para ello, el lector contara con la opci6n de revisar el video de
instalacion que viene como pa rte de las recursos en lfnea asociados a este libro,
los cuales estan disponibles en la pagina web de Editorial Macro.
1
En el sexto capftulo se plantearan veinte casos practicos, los cual es estan
desarrollados de manera facil Y sencilla para servir al lector como ejemplos qu
le orienten a la hora de desarrollar aplicaciones de minerfa de datos mediante la:
diferentes tecnicas propuestas por el SPSS Clementine, entre ellas los arbol es de
decision, las redes neuronales, los clusteres, las series de tiempo, la asocia cion
dependencia, la validacion de datos err6neos Y la integracion Y partici6n de datot

A traves de todos estos aportes, el presente libro quiere servir al lector corno
un manual que le permita introducirse en el mundo de la minerfa de datos a ,
, Si
com~ una gufa que le ayude a realizar proyectos academicos y empresariales
medrante esta, en especial, a partir de las herramientas provefdas por el software
SPSS Clementine.
Conceptos basicos
de mineria de datos

Objetivos

En este capftulo el lector aprendera los conceptos clave de la minerfa de


datos que son necesarios para crear aplicaciones tanto a nivel academico
como empresarial. Asimismo, conocera los pasos de la metodolog1a
CRISP, la cual es hoy la mas usada en el mercado en cuanto a la aplicac,on
de esta disciplina.

Contenido

1.1 Minerfa de datos


1.2 Procesos de minerfa de datos (KOO)
1.3 Metodologfa CRI SP
1.4 Modelo
1.5 Modelo hfbrido
1.6 Predicci6n
1.7 Almacen de datos (data warehouse)
/

Capitulo I: onceptos ba !cos de mlnerfa de datos lS

1 _1 Mineria de datos
La mineria de datos se ha definido de diferentes maneras. A continuaci6n, se mencionaran
algunos de e st os -~oncepto~ para un mejor entendimiento, en especial, por aque llas
personas que recien se esten iniciando en el maravilloso mundo de la extracci6n del
c nocimiento:

A. Primera definici6n

La mineria de datos se define como aquel proceso que consiste en extraer conocimiento util
y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados
en distintos formatos. En ese sentido, la tarea fu ndamental de la mineria de datos es
encontrar modelos inteligibles a partir de los datos recogidos (Hernandez et al., 2004) .

B. Segunda definici6n
Segun Hernandez et al. (2004), la minerfa de datos implica un proceso de
descubrimiento de nuevas y significativas relaciones, patrones y tendencias que son
observadas al examinar grandes cantidades de informaci6n.

C. Tercera definici6n
Segun Han y Kamber (2006) la minerfa de datos se refiere a la extracci6n de
conocimiento o «mineria» de grandes cantidades de datos. Sin embargo, de acuerdo
con su perspectiva el nombre seria, en realidad, inapropiado, ya que, por ej emplo, la
actividad minera que extrae oro de las rocas ode la arena se conoce como «minerfa de
oro» en vez de «mineria de roca» o «de extracci6n de arena». Por ende, partiendo de
una 16gica similar, la mineria de datos deberia haber recibido el nombre mas apropiado
de «minerfa de datos del conocimiento», el cual, por desgracia, es un poco largo.
Ahora bien, sucede que «minerfa» es una palabra que porta la idea de un proceso por
el cual se extrae un pequeno conjunto de elementos (pepitas) poseedores de una
cierta cantidad de materia prima (metales preciosos). Asi, a pesar de ser un nombre
poco apropiado, al vincular las ideas de datos y extracci6n, «mineria de datos» se
ha convertido en una opci6n mas popular. Frente a esto, lo unico que cabe advertir
es que existen muchas otras expresiones similares a esta, las cuales, empero, tienen
un diferente matiz de sentido, tales coma la mineria de datos de conocimiento, la
extracci6n de conocimientos, analisis de datos, analisis de patrones, arqueologfa de
datos y filtraci6n de informaci6n.

D. Cuarta definici6n
Segun Gonzalez (2005), la mineria de datos es el proceso por el cual se genera un
modelo util para la predicci6n. Dicho mode lose construye teniendo coma fundamento
los datos que se encuentran en una base de datos, a las cuales se le ha aplicado algun
algoritmo justamente con el fin de plantear un modelo.
rlJ d , It qu lu min, rl, d , d;m 'i ~, un pro QU lntegra los datos
nt , ( 11 rvPr, rJ Ir•, r r. l, Pt .) par , p •"t ri rrnente, extraer un
n 1ml nl , ''1 dN Ir, 1(1 •nt1fi1 i1r Inf rm t: 16n tr nd nt , vallosa Yutil, a
JI I {, Ir tltu I r, c• v n J p d r l m, r lgun lgnlfi ti va decisi6n.

1.2 Pro ·r os d ~ rnlnerla I · latoR (KDD)


16n d d, d _to I mp r
son las mismas
I onjunto de las pa rtes de este
«KD » (knowledge discovery in
datobo · d d tos»), es descrito de la

~ ln1 II Oll D,, 111 Int rpretar1on/


'''"
pr 0111•)•. 11If-I
11 J ll'I
fo 11 11u 11u11 Mlninlj ~valuation

- •,.,.,.·.,..,.•, I, "'"·. . ,I -

I I ◄
I, lf,101
l ul ,r I )111 l l).rl. l
Pil ll N n

I Knowledge

Flsura 1.1 D J, ·rip i6n ec.• t1 01'J I tit• I ~ J)d',1 ·, q 11(' OW, t lt 11yf'l1 (• I pr KDD
Fuente : ravv \J er uf. (19% ).

El proceso de KDD Int ra tlv It r tlv ( on much d cislones tomadas por el


usuario) impllca num ro o Pi'.I SOS ciu :1
1. Aprendizaje d I dom lnlo d Ir pll In luy la adqu isici6n del
conoc iml nto pr -vlo r I C)vant y I plant bJ · tivos d I aplica ion.
2. creacl6n de un onj un d dc. to · I d . li no: por m di d _st 5
de dato - o ellg -1 ub onjunto d v.._ rlc bl o muest·ras d ""d, t
!)

descubri ml nto e v c1 r alll r.


3. Umpieza de dato y pr pr iJn ll •nto: Ql lf I dr n Ir p ;) lo n -s basl a C mo
la ell mina 16n de ruldo, la rr. ,ogldJ d ' l.i lnforn a 16n n . .sc,c, 1-.,..n Pera mo de1rH,. 1.,"
det rm ina 16n de •~; tralJ•glu" pJr.1
~
1J n 1.:i Iwjn C' I >s i1ITl •)t .s de d ~ ·t.os q u f,1 It 111, ,
la contabl ll dad d li:1 lnformt1 Ion 1n I lr-1npo Y s ' lt f' ncl , , ci"._, I cmbi on L'..Irl o:-,,-
la d cl i6n :.n torno al LI ' o ti ' DB M. (Li l s .on1o t lpos~ df' d, I 0 . y ~quem _ ) I~
z1s \I •
sign ac l6n d valore de• i:lp,1 rr ·1dos y rlfl}, - ono .Id .
4 R due Ion d
,
date><; y d ' ptuyc:c: 1611 : I' ll (''.; ( (I l)Ll ll tQ s llcvr '·1 .)' b I.d tlU' SqlJP(
, , . , _ , .
. i ,I. (.Jt'I
I ca rac terbtt ca ut-1 11.1~ p:°lr;J ,r pr' ,1ntJ r I s tk1t os fi r:Jf" ndi "111i d I b .
1
i 11
, I , ,J.. ' r- • e o jP twn v t 1' •
t arer . Para ell o, :) c·j c 111.J ,) II , ( II C'.t 111·1 df' cll,nt nsln111l1r1l rJ ~
I 1 . .J
• , . ' ' . ' , , II ()!,(' npll ilf"I llll ( () ll ( l!, (re'
tran fortrW ,on que tJl'rltti l..1 11 .1 rrH l ,1 1 "I n u111 L' I O f' lf',~tlvo df' 1 ('
_. , , 1 , I , .i Wlt lr1bl, s n ,~,llldto a
ncontrar la,· r -•prest! t1l t.1 <.I0 111 t, IW ,ll i, , Jlfl:, p .11,1 los rL,t os .
5_Elecci6n de la funci6n d miner/ad da1 0 ,, : ,-J trr1 r.:·. dr· (·'.I r, ,.,. dr·, Id(· r· I 1,, ripr'i ,.lt(
del modelo derivado por medi d I lgoritmo d . mi ,ul;J r:J r· rJr1i r,•. (r,1,r r·wrri pl<,, lei
clasiflcaci6n, la regresi6n, y la, grup 16n).
6. Elecci6n del algorit mo de min erfa de fato'. : r:: ri ,.,,1;J p;,r 1, . '.r· r·llµ,, -11 1,1 , . , , 1: I 1rJ,y.
que van a ser utilizados para la bu~qu da d1;: p i-r ri :'. r:r1 1: I c inJi.1rir o rJ<- lo:, rJ 11 10 .,
tales como decidir que modelos y param trc s pu -rJ~n ',r·r ;:ir;r rip1odu•. (r,ur t )1· rnplu,
modelos para los datos categ6ricos d1f renti:::.; d. lo•) murkier. <· r1 Ir> ', vu.1r,r1 ·<, r11r'i •,
reales) y establecer con q ue m · todo de min12rfa _',to·. p1 Jr:rJr:r1 ':r·r ,,pl1 r.t1dr !. (pen
ejemplo, el usuario puede estar ma s int r d en la cornprr;r1',i(iri rJr: I rnodr·lo rw<: ·r1
sus capacidades de predicci6n) .
7. Realizaci6n de mineria de datos: aqui s da la bu
qu da de pr- tr< nr:<: d • lrd<:r •• d •r, tr"O
de una forma de representaci6n particu lar o el conjunto de ta l • l rcr,rc~1.c: ri li1c. i n , ,
en el cual se incluyen las reglas de cl asificaci6n o arbol '"' , la regr<-:!.i6n, I c/ucl(.:rfn(j , ·I
modelado secuencia, la dependencia y el analisis linea l.
8. lnterpretaci6n: en este paso se realiza la interpretaci6n de lo~ patrnne<: d ·tt .t do y,
en algunos casos, tambien se vuelve a cualquiera de los mom n oc anterior · . Lu go
de ello, se hace la visualizaci6n de los posibles patrones extrafdos, la li mina .i6n d lo
patrones redundantes o irrelevantes y la tradu cci6n de los patrone utl l s a t °'rminos
que sean comprensibles para los usuarios.
9. Utilizaci6n del conocimiento descubierto: este ultimo paso implica la incorporaci6n
de los conocimientos extraidos en pro del rendimiento del sisterna, tomando acciones
basadas en dicho conocimiento o simplemente documentandolo e informandolo a
las partes interesadas. Asimismo, tambien se compru eba n y resuelven los conflictos
potenciales a partir de lo extraido de este conocimiento.

1.3 Metodologia CRISP


El metodo CRISP fue disenado para dar una guia a inexpertos en DM y proveer asi
un modelo generico que pudiera especializarse segun las necesidades de cualquier
compania o sector en particular, permitiendo a los analistas t ener una razonable
seguridad de que sus esfuerzos van a ser utiles y validos (Llombart, M etodologfa de
data minning CRISP).
Para definir con mas detalle esta metodologia, a continuaci6n, se ha considerado
oportuno insertar el siguiente fragmento que forma parte de la tesis de Guillermo
Molero (2008):

[El) CRISP-OM (Chapman et al., 2000) consta de cuatro niveles, organizados de forma
jerarquica en tareas que van desde el nivel mas general hasta los casos mas especff1cos.
En el nivel general, el proceso esta organizado en seis fases: analisis del problema, anallsis
de datos, preparaci6n de datos, modelado, evaluaci6n e implementacl6n. A su vez, cada
fa se consta de tareas generales de un segundo nivel (Figura 2.5). Estas ta reas generales se
proyectan a tareas espedficas, donde se describen las acciones que se deben desarrollar
para cada situaci6n especifica.
Modelo
generico

[ I
Pro ecc16n

(I
a

l
Modelo
especifico

at
~ :

era! es limpie a de datos , en el tercer ni el se especificarian


tareas le-a de at numericos y/ o limpieza de datos categ6ricos.
iv I se detem ina el njunto de acciones y decisiones a realizar
para res ivel anterior Sumathi & Sivanandam, 2006).

se eden re resentar coma un ciclo, como se muestra


·, ca a u a e las fases re resenta el analisis del problema, el analisis de
e araci · e da , el ela . la e" luaci6n , y la implementaci6n de estos. La
a uraleza itera \ I gia CRIS -DM se simboli a por el circulo exterior.

m rensi ·
I e l da

nta - n

atos
,/
/

.;
.,,.,,,
,,,..,,..

L----- -----------------------
Figura .6 ,,s s t>I
:;-,,....
' ..
Fuente:
..-...r
L------ -------------
Capfbalo 1: Conceptos buk:os de mtnena de datos

La secuenci a de las fases no es est ricta, puesto que estas pueden intera ctuar entre si
durante el desa rrollo del proyecto. De esta manera, la siguiente fase en la secuencia, a
menudo depende de los resultad os asociados con la fase precedente . Las flecha s indican la s
dependencias significativas entre las diferentes fa ses, por ejemplo, si se esta en la fase de
modelaci6n, es posible volver a la fase de preparaci6n de datos para refinar los datos, antes
de seguir con la fase de evaluaci6n (Larose, 2005) .

Tornado de : Molero, 2008.

El plan del proyecto describe los timing para alcanzar los objetivos. Al respecto, cabe
destacar, coma un aporte particular, que un estandar de facto es que el reparto se
constituya de acuerdo a los siguientes porcentajes:

• 50-70 % fase de preparaci6n de los datos.


• 20-30 % fase de conocimiento de los datos.
• 10-20 % en el modelado, evaluaci6n y conocimiento del negocio.
• 5-10 % fase de despliegue.

Volviendo a la tesis de Melero (2008), se puede describir cada una de las fases de la
metodologfa CRISP segun esta serie de pasos indicados por el autor:

1. Analisis del problema. En esta fase inicial se debe comprender con claridad los objetivos y
requerimientos del proyecto, con la finalidad de elaborar una buena planeaci6n en el desarrollo.
2. Analisis de los datos. Se establece el contacto directo con el problema. Las actividades a realizar
son: la recolecci6n inicial de datos, la identificaci6n de la calidad de las datos y el establecimiento de
posibles relaciones mas evidentes que permitan obtener las primeras hip6tesis.
3. Preparaci6n de las datos. Aquf se realiza la selecci6n de datos a las que se va a aplicar la
tecnica de modelado (variables y muestras), la limpieza de los datos, la generaci6n de
variables adicionales, la integraci6n de diferentes conjuntos de datos y cambios de formate.
Esta fase laboriosa, esta directamente relacionada con la fase de modelado, puesto que, en
funci6n de la tecnica a utilizar, los datos necesitan ser procesados en diferentes formas.
4. Modelado. Aquf se seleccionan las tecnicas apropiadas para el desarrollo del proyecto. La
tecnica a emplearse en esta fase debe ser seleccionada en funci6n a los siguientes criterios:
ser apropiada al problema, disponer de datos adecuados, cumplir los requerimientos del
problema, y el conocimiento de la tecnica.
5. Evaluaci6n. En esta fase se evalua el modelo, no desde el punto de vista de los datos,
sino del cumplimiento a los requerimientos iniciales. Antes de proceder a su implantaci6n
para su uso habitual, se debe revisar todo el proceso teniendo en cuenta los resultados
obtenidos, e identificando posibles errores que llevan a repetir algun proceso anterior.
6. lmplementaci6n. Si el modelo generado es valido, desde el punto de vista de cumplimiento
a los requerimientos iniciales, se precede a su implementaci6n y explotaci6n. Normalmente
los proyectos de minerfa de datos no terminan en la implementaci6n del modelo, sino se
deben documentary presentar los resultados de manera comprensible para alcanzar un mejor
entendimiento del conocimiento.

Tornado de: Molero, 2008.


1.4 Modelo
Segun Fayyad et al. (1996), el modelo tiene dos factores importantes a saber: la funci6n
del modelo (por ejemplo, la clasificacion y el clustering) Y la forma de representaci6n dei
mismo (por ejemplo, mediante una funcion lineal de multiples variables o una funci6n
de probabilidad gaussiana de densidad). Oicho esto, un modelo contiene parametros
que se determinan a partir de los datos.

1.s Modelo hibrido


Un modelo h[brido es aquel que surge de la union de dos tecnicas de mineria de datos
a mas. En el desarrollo del presente Ii bro, van a ser utilizados coma ejemplos sencillos la
tecnica de arboles de decision y la tecnica de redes neuronales, debido a que este tipo
de combinaciones no se han desarrollado con frecuencia en proyectos de minerfa de
datos, un detalle que se abordara mas adelante en la parte final de este libro.
Volviendo al tema, en un reciente trabajo hecho a partir de un enfoque h[brido Goddard
et al. (1995) han indicado que los metodos de maquinas de aprendizaje mas utilizados
en tareas de clasificacion son los arboles de decision (AD) y las redes neuronales (RN).
Con respecto a las redes neuronales, la arquitectura mas utilizada es la de las llamados
perceptrones multicapa (PMC). Sin embargo, advierten estos autores:

[...] cada uno de ellas [el AD Y el RN] puede presentar distintas dificultades en las aplicaciones
del mundo real. Par ejemplo, las AD pueden ser pocos flexibles para generalizar sabre datos de
prueba y excesivamente ramificados. En el casa de los PMC hay que definir su estructura numero
de nados y ca pas y aun definida esta, no hay garantfa que converja a una soluci6n ace~table.

Tornado de: Goddard et al., 1995.

oebido a las desventajas antes mencionadas, lo que proponen estos autores es un


metodo para implementar un PMC a partir de un AD y luego comparar el desempef\O
del metodo implementado en relacion al AD y con respecto a un PMC definido por
separado. Para la realizacion de su experimento, Goddard et al. (1995 ) utilizaron la
1
conocida base de da_tos IRIS en donde el metodo PMC inicializado por mapeo supera
en precision a los metodos de AD y PMC por separado.

E la base de datos IRIS el conj unto de datos contiene 3 clases de 50 c ,,,, dt


1
n . asos cada un d d - a un 11 r-
lanta iris. Una clase es hnealmente separable de las otras dos y estas ulti a, . on e cada clase se re 11ere e la01rJ
~ nte· Center for Machine Learning and Intelligent Systems. Disponlbl ma~ no son hnealmente separables la una5dI1trril7
ue · e en .<http://archive .ics.uci.edu/ml/dataset .
~ 1: Conceptosbaa1cosdemtner1adedatos

1.6 Predicci6n
n la predicci6n I obj tivo es desa rroll
ar un modelo en el d
p cto d Io d ato (variab le predi ch ) . que se pue a inferir un solo
a a partir de una b. .,
d los mi mos (va r iabl es predict o ra s) L d. . , com inac1on de otros aspectos
. · a pre IccIon requ ·
p r la va ri able de sa lid a de un con · t . . ,ere, ent onces, t ener etiq uetas
. Jun o 1im1tado de datos I I .
r pr senta una 1nformaci6n de confian b , en e cua un a etiqueta
za so re el valor de la · bl d 1·
sp d ficos. En alguna s ocasiones sine b . vana e e sa 1da en casos
n que estas etiqueta s pu eden s: r de hm :rgo, es _,mportante tener en cuenta el gra do
ec o aprox1mada o incompletamente fiables
De acuerdo con Jimenez & Alvarez (20l0) en 1 , b. . ·
m ineria de datos tendrfa dos • ' e am ,to educatlvo la predicci6n mediante
usos Import antes:

En algunos casos, m . etodos de predic ci·6 n pue d en ser usados para estudiar que caracterfsticas
d e un mo d eIo son 1mportantes para u na pre d'1cc1on,
· · dando ·informaci6n sabre la construcci6n
su b yacente. Este es. un enfoque
. comu n en programas de ·investlgacion
• , que tratan de predecir
r~sultados educac,~nales sin predecir anteriormente factores intermedios. En un segundo
tip? de uso, los metodos de predicci6n son utilizados para predecir cual sera el va lor de
s~hda en context~s donde no es deseable obtener una etiqueta para esa construcci6n (par
eiemplo, en ocas,ones en las que no haya datos etiquetados).

Tornado de: Jimenez & Alvarez, 2010.

Segu~ lo afirmado por estos autores, a traves de esta operaci6n resultarfa posible,
por eJemplo, predecir el salario de los graduados de una universidad con 10 afios de
experiencia laboral, el estilo de aprendizaje mas adecuado en la ensefianza del curso de
Matematica I en la escuela profesional de lngenieria de Sistemas, asi como el potencial
de ventas en el mercado de un nuevo producto, segun su precio.

1. 7 Almacen de datos ( data warehouse)


Un almacen de datos se define como un conjunto de datos integrados, orientados a
un tema de negocio coma ventas, compras, almacen, marketing, etc.; que varfan con
el tiempo; que no son transitorios y que soportan el proceso de toma de decisiones
administrativas (Inmon, 2005). A partir de esta serie de caracterfsticas, se puede pasar a
establecer y detallar las siguientes conceptos relacionados a esta plataforma:

a. Conj unto orientado: los datos que se encuentran en un data warehouse (OW) estan
vinculados con las operaciones de una organizaci6n, por ejemplo, con las actividades
de venta y compra, con los clientes, con el area de Recurses Humanos, etc.

b. Datos integrados: los datos tom ados de distintos sistemas de la empresa son
recopilados y almacenados en una fuente coherente Y homogenea .
c. Variables en el tiempo y no transitorios: los datos del data warehouse (OW) incluyen
los datos actuales e hist6ricos de la organizaci6n, suelen almacenarse como agregados
Y no deben ser eliminados, ni modificados.
1. La mineria de datos c nsiste en I ra i n d I onocimiento que se encuentra
acumulado en diferentes n, tores de base de datos (archivos pianos, base de datos
relacionales, etc.) cuya extracci • n permite obtener informaci6n util Y comprensible
que aportara una entaja competitiva a una empresa en la toma de decisiones frente
a otras dedicadas al mismo rubro.
2. El proceso de mineria de datos (KOO) y la metodologia CRISP consisten en un conjunto
de pasos que van a permitir construir una aplicacion a partir del analisis del problema,
el analisis de los datos, la preparaci6n de los datos, el modelado y la evaluaci6n e
implementaci6n (hacienda uso del metodo espiral hasta llegar a los resultados deseados).

Comprensi6n ~ - Comprensi6n
del negocio ~ de los datos

Prep r cl6n
d lo d t

lmplantac16n

Mod lad
Datos

Evaluaci6n

3. Un modela es la representaci6n
, de alga abstracto por alg n r t . _n 1Cc 0 d I
modelo de minena de datos, este se encuentra repr se ntado p r la
entrada que repre~entan los campos de las tablas de las bas 5 d d t
tecnicas
, de minena , . varias . Entre ellas fig ur n Ia r d . n ur n 1I s, lo
.. , de datos. son
arboles
. de dec1s1on, la regres,on
. lineal, la regresi6n log,'sti· ca, 1a ri

d ll •niP') , c (
A partir de estas se va a val,dar el modela' asi coma tamb 1· , n a variabl , l 1, que
d ~<111t,
1
representa el valor a obtener.
Capitulo 1: Conceptos basicos de mtneria de datos

4. Un modelo hibrido es la combinacion de dos o mas tecnicas que ayudan a mejorar


las resu ltados de la prediccion. Par ejemplo, se puede aunar el uso de las redes
neuronales con el de los arboles de decision, debido a que uno es el complemento del
otro. No obstante, el procesamiento de los datos en las redes neuronales es mas lento
con respecto a c6mo este se lleva a cabo mediante los arboles de decision.
5. La predicci6n tiene como objetivo desarrollar un modelo a partir del cual se
pueda deducir un solo aspecto de los datos (variable a predecir) por media de una
combinacion con otros conjuntos de datos (variables predictoras) .
6. Un data warehouse es un almacen de datos que se define como un conjunto de datos
integrados, orientados a un tema de negocio espedfico, cambiantes en el tiempo y
no transitorios, las cuales soportan el proceso de toma de decisiones administrativas
dentro de una empresa.

CRM Call
and
Center
eCRM
Marketing
Campaign I Internet
Mgmt

Enterprise
Data
Financial/ Warehouse Inventory
Accounting
\
Procurement HR
I

11 •, I, t 111111111, l·l,• d 111111·11 I,


I I ' I, \ I 1 If I 1, I

111111 II 11 ,II I lllhll 1, 1 1l ilh l11I ,,, ,1 lh, li 111 ,I


l.1 11\1111 I 1,1 d d 111 1 II dtl I 'Ill \t ',I \ ,\ I,\ I Ill\ I 'Ill! I ' 11 l, I

I 111 ,111111111 111 dt. 1111111111 II • I 'I, I I I I 1',dlh 1 t 11\' ltl I II , \1 h 1t\1' ,,1,
,,, 11,111 II I II, .111,,,h,d,11 d,·11111111 h 11 11 11 111111 ,I 1,1 1' h11 ·" h'II 1q,, '"''
lt11 1di,llll1 1 l.1111111,·111,h d,11, 1• \ d,• l,111111\\ ". t, I 1111 ., I ,111111! I \1 1, ,hi\\
t, ,,,1--111,1 ,·l.111.llhl\lll,111111111,1111 • l,1.,,,11, II 111,111,h•, I,

ont , ldo
Mod, Iii•, ti, • 1111111 1 11.i d, 1 ii 1111•,
1
;,, M1•l1 11 l11 , d1111il11r •1l.1 d1 tldlP 1•
1

'" A1l111l1 ··· tit I I 1• 11 11 ,11 1,·111


1
f l\1·,!11 1• 11, 1111111 ,tl •

I. /\1ilh,11l t'11 1d l.1 111l11t l l11 d1 1 1 ►11 11>,


I I M1 11, rl 'd, d ,11 11', 111111 I 11111 1111111
2.1 Modelos de mineria de datos
Para hablar de los modelos de mi eria e a 05 se i se a
Clemente Martinez (2012 ).

Los modelosdedata miningse clasi, ca co re ·· :' 5 ce::- ::-. ~~ :: - 2 :-- -· :c · ::-~::-


se tiene una variable con valor desco , , y la fi al 2 E _e:e- -=--= :.::= ,=- ==- cc-"°"
llama respuesta, variable dependie te u o je =: _::- :2 :-=o === -==~-
la predicci6n son las pred ictores o ariables , '{

Los modelos pred ictivos requi eren ser «e • e


de entrenamiento cuyo va lor de vari able o Je
entregue resultados en base un ap rendizaJe, e
realidad conocida .

A este tipo de modelos se les conoce tambien co


debido a que las valores estimados o calculados so co .ara s
y, por lo tanto, se tiene una clara medida del exito o fa lla e la cv - :=~::~~~~ f ,~
algoritmos que se utilizan en estos mod elos son los de clas, 1i1S reg.?3 -:-~ ~ 3.

El aprendizaje supervisado se utiliza en problemas e I s e s.e ,e e


resultado al que se quiere llegar, par ejemplo, para la detecci 'ea
mas propensos a la fuga de la empresa.

Par otra parte, se tienen los modelos descriptivos, en los c ales


resultado conocido para poder guiar a las algoritmos, y por ell se
aprendizaje no supervisado, donde el modelo se a ajustando de a e
o datos entregados, y se recurre muchas veces a argument s
calidad de los resultados. Algunos algoritmos que se utiliza n e
clustering y las reglas de asociaci6n [29) .

El aprendizaje no supervisado es usado en los casos en que nose e e ie


del resultado al que se va a llegar, por ejemplo, al segmentar a I s lien es e ;::,
hayan sido definidos previamente. Luego de que el modelo ya ha sid e
una muestra de datos independiente de aquella utilizada para la fa se
entrenamiento del modelo, con la intencion de evaluar la capacidad e st .

Tornado de: Martinez, 2012.

2.2 Metodos de mineria de datos


Segun se ha podido comprobar a partir del aporte de Martinez ( 01 ) ha d s m
en minerfa de datos: los predictivos y los descriptivos. Llegados a esta parte I qu
mencionar es que existe una gran variedad de metodos para ambos. En el resent lib
solo se hara hincapie en dos que son muy importantes para la predic i · n: I s ar les
clasificaci6n y las redes neuronales.
2.2 .1 Arboles de clasificaci6n
El arbol de decisi6n desarrollado per Breiman et al. (19 84 ) trat~ ?e identificar que
variable independiente puede hacer que sucesivamente una dectSi6n hecha a Par r
de los dates haga dividir al grupo original de dates en pares de subgrupos y una
variable dependiente. Es impertante ten er en cuenta que, a diferencia de la regre'i6ri
que devuelve un subcenjunte de las variables, a traves de los arboles de clasificaci6n
se puede clasificar, en cambio, a las facteres que afectan a la tasa de retenci6n.

Al respecto, dice Ricardo Blanco:


/, - - - - - - - - - - - - - - - - - - - - - - - -- - -------,
Un arbol de decisi6n es un conjunto de condiciones organizadas en una estructura jerarquica,
de tal manera que la decisi6n final a tomar se puede determinar siguiendo las condiciones
que se cumplen desde la rafz del arbol hasta alguna de sus hojas. Los arboles de decisi6n se
utilizan desde hace siglos, y son especialmente apropiados para expresar procedimientos
medicos, legales, comerciales, estrategicos, matematicos, 16gicos, etc.
Una de las grandes ventajas de los arboles de decision es que, en su forma mas general,
las opciones posibles a partir de una determinada condici6n son separadas. Esto permite
analizar una situaci6n y, siguiendo el arbol de decisi6n apropiadamente, llegar a una sola
acci6n o decision a tomar.

Tornado de: Blanco, 2007.

Para
· dentender
• coma
. funcionan
., . arboles de decision se ha ere,'d o per t·nente
. los 1

,Lntro ucvtr, a cont1nuac1on, el s1gu1ente ejemplo desarrollado por la tesis de Joel


oaeza a1ero.

En la figura 4.1 se muestra un arbol de decisi6n qu e perm1te


. decidir si · na
partida de golf, de acuerdo a las condiciones climati cas. se Juega o no u

El nodo raf z es el clima y tiene tres ramas: soleado nublado . .


del nodo raf z clima es soleado entonces d . ' d Y lluv,oso. S1 el valor de la prueba
' ' esc,en e al node . t
tiene dos ramas: <=75 y >75. Si el valor de la b in erno Humedad . Este nodo
prue a del nodo · t 5
entonces, desciende al nodo hoja que especifica el in erno Humedad es <=7 ,
I
al nodo hoja que especifica el valor No juega. va or Juega, en caso contrario, desciende

Si el valor de la prueba clima es nublado ent


• ' onces, desciend I ..
el valor Juega. S1 el valor de prueba del nodo . e a nodo hoja que espec1fica
. . 1
c ima es lluvioso d
1nterno V1ento. Este nodo tiene dos ramas· fal , entonces, desciende al no o
rd
nodo interno Viento es falso, entonces desc·· dso y ve adero. Si el valor de la prueba ctel
. . , ,en e al nod 0 h .
En caso contrano, desc1ende al nodo hoja q .. OJa que especifica el valor Juega.
ue espec1ftca el valor N .
OJUega
CaJ,ibdo 2: Teontcas Yapllcact6n de la mmerta de datos

Clima

nublado lluvioso

Juega

falso verdadero

Juega No juega Juega No juega

Figura 4.1 Arbo! de decision para jugar una partida de Golf

Tornado de: Loaeza, 2009.

Ricardo Blanco brinda en su tesis otro ejemplo para entender las arboles de decision.

Consideremos un ejemplo clasico usado para la explicacion de los arboles de decision : la


clasificacion de plantas iris. Este problema consiste en determinar de que tipo de planta se
trata (Iris setosa, Iris versicolor o Iris virginica) en base a las caracterfsticas del ancho y largo
de su petalo y/o sepalo. En la figura 2.2 se muestra una representacion en forma de arbol de
decision para este problema.

Lpetalwidth?

( lris-setosa lpetalwidth?

lpetallength 7 lris-virginica

lris-versicolor lpetalwidth?

( lris-virginica J lris-versicolor

Figura 2.2 Arbol de decision para determinar el tipo de plantas iris


Este arbol de decision en concreto funciona coma . un «clasifkador es de ir' dada lin.:i
nueva planta nos la clasifica en una de las clases pos,bl_es, para lo cual basta con recorrer el
arbol desde la rafz hasta alguna de sus hojas, en func,on del valor de las atrlbutos del dato
a cla sificar.
Los algoritmos de aprendizaje de arboles de decision mas habituales se Ila man algorit 11105 de
partici6n o algoritmos de «divide y venceras». Basicamente, el algoritmo va construyendo el
arbol (desde el arbol que solo contiene la raiz) anadiendo particianes Y los hijos resu ltantes
de cada particion. Logicamente, en cada particion, los ejemplos se van dividiendo entre lo
hijos. Finalmente, se llega a la situacion en la que todos las ejemplos que caen en los nodos
inferiores son de la misma clase y esa rama ya no sigue creciendo.

En la figura 2.3 se puede observar un algoritmo basico para generar un arbol de decisi6n a
partir de un conjunto de ejemplos, utilizando la tecnica de «partici6n».

IALGORITMO Partici6n (N:nodo, E:conjunto de ejemplos)


fil todos los ejemplos E son de la misma clase e ENTONCES
Asignar la clase e al nodo N.
SALIR // Esta rama es pura, ya no hay que seguir partiendo. N es hoja.
Sl..Nil
Particiones := generar posibles particiones.
MejorPartici6n := seleccionar la mejor partici6n seg(m el criterio de partici6n.
PARA CADA condici6n i de la MejorPartici6n HACER
Ai'iadir un nodo hijo i a Ny asigllar los ejemplos consistentes a cuda hijo ( Ei).
Partici6n(i, Ei). // Realizar el mismo procedimiento global con cada hijo.
FIN-PARA
FlN-SI
FIN-ALGORITMO

Par~ ~enerar un modelo con un conjunto de ejemplos E, se invoca con la llamada


Part1c16n(R,E), donde R es till nodo raiz de till arbol por empez,tr.
,

Figura 2.3 Algoritmo de aprendizaje de arboles de decision por «partici6n» (divi de y vcncerii:,)

Como puede
. ·, verse, una caracteristica
d importante de es t os a 1goritmos
.
es que un a vez eIeg1·da
Ia pa rti cIon ya no
., se pue e cambiar , au nque mas tarde se pudiera comprobar que hil sI·d0
,
una ma Ia elecc1on. Por tanto; uno d I , .
. t d . e os aspectos mas Importantes a con siderar en csto~
sis emas es eI enom1nado criteria de rti ·,
. pa cion, ya que una mala elecc ion de la partici6n
(especralmente en las partes superiores del , b O I) , .
ar generara un arbol peor.
Por lo tanto, las particiones a considerar 1
• •
diferencian fundamentalmente a d. _Ye cnteno de se leccion de parti ciones son lo que
I
fecha coma CART ID3
, ,
c t
, 4 .5, e c.
os ISUntos algoritmos de «particion » existentes hr1 5la la

Tai y coma hemos mencionado, ot ra caracterist' · · b le' de


decision se pueden expresar co . ica inte r esante es qu e lo'.:. ar o ~
mo conJuntos d . I0, n de
condiciones ENTONCES accio' n E t e reg 1as de la form a SI co n1 unf
· s as reglas s O b . de 10s
caminos que llevan desde el nod , h e tien e n al r ec orre r cad a un°
.. oraIz astaun d . . , son
las condrcrone s de las reglas . no o hoJa, donde las par t1 c1one
Capftulo 2: Tecn1cas y apltcaolon de Ja mtnerfa de detos

Por ejemplo, el arbol de la figura 2.4 se puede expresar como el conj unto de reg las sigu ientes:

SI petalwidth <= 0.6 ENTONCES lris-setosa


SI NO II petalwidth > 0.6
I SI petalwidth <= 1.7
I I SI petallength <= 4.9 ENTONCES lris-versicolor
I I SI NO II petallength > 4.9
I I I SI petalwidth <= 1.5 ENTONCES lris-virginica
I I I SI NO lris-versicolor II petalwidth > 1.5
I SI NO lris-virginica II petalwidth > I. 7

Figura 2.4 Algoritmo de arbol de decision de la base de datos Iris

Como hemos mencionado anteriormente, las particiones son un conjunto de cond iciones
exhaustivas y excluyentes. Cuantas mas pa rticiones permitamos mas expresivos podran ser
los arboles de decision generados y, probablemente, mas precises. Ade mas, mas posibilidades
tendremos de encontrar los patrones que hay detras de los datos. No obstante, cuantas mas
particiones elijamos, la complejidad del algoritmo sera mayor.

Por tanto, la calidad de un algoritmo esta determinada por el compromise entre expresividad
y eficiencia.

Debido a esto, la mayoria de los algoritmos de aprendizaje de arboles de decision solo


permiten un juego muy limitado de particiones. Asf, el C4.5 contiene un solo tipo de particion
para los atributos nominales y un solo tipo de particion para los atributos numericos:

1. Particiones nominales: una condicion de la forma Xi = Vj,1 ~ j ~ k, siendo xi el atributo


nominal seleccionado y Vj cada uno de sus k posibles valores.
2. Particiones numericas: las particiones numericas admitidas son de la forma {Xi ~ a, Xi > a}
donde Xi es un atributo numerico y continua, y a es una constante numerica que se
obtiene observando valores consecutivos del atributo y calculando sus puntos medias.

La expresividad resultante de las particiones anteriores se conoce como expresividad


proposicional cuadricular, ya que parte el espacio del problema mediante segmentos
paralelos a las ejes. Vease, par ejemplo, la figura 2.5 para un problema bidimensional.

0 1
0
0 0 0
0 X > 0.25

0 □ □ □ □
□ □
0 □ □ □ X > 0.66
X > 0.75
□ □ 0 0
0
□ □ 0
1
Y > 0.25 y > 0.6

Figura 2.5 Partici6n cuadricular del espacio obtenido por un arbol de decision para un problema
con dos atributos (Xe Y) numericos
l
Asl, n probl mas d la ifi a ion, un mod lo es jimplicltamente o explicitamente) unil
div1s16n d I p 10 d tn tan ,as n region s, ada una de las uales se les asigna 1mil
d t rmtn da I s d las posibl s. Dado un conjunto de ejemplos de ent renarnien lo del Ltill
r nd mos un mod lo, este s preciso si las reglones que prod u e co incide con las regione~
v rd d ras d sos jemplos; el algorlt mo produce modelos estables si prod uce las mismas
r gl n s al proporclonarl dos dif r ntes conjuntos de entre namien to del m ismo domin10;
Y I s m d los son comprensibles en cuanto ind lea claramente (a un usuario hu mano) c11ales
s n I s r g1ones de la clase .

Basandose en la idea de buscar particiones que discrlminen o que consigan nodos mas puros
(donde un nodo puro es aquel en el que los ejemplos que caen en el son t odos de la misma
lase ), se han presentado en las ultimas dos decadas numerosos cri terios de particion, tales
omo el criteria del error esperado, el criterlo Glni, los criterlos gain, gain ra tio y el criteria
usado en el algoritmo C4.5 y el DKM . Estos crlterlos de particlon busca n la particion s con la
menor lmpureza l(s), definlda de la slguiente forma:

Ks) = L p/(p>p~,- .. ,p~)


J=l ...n

Donde n es el numera de nodos hijos de la partici6n (numero de condiclones de la particion),


Pj es la probabilidad de que un ejemplo «calga» en el nado j, y Pij es la proporcion de
elementos de la clase i en el nodo j, siendo c el numero de clases. La funci6n f() se denomina
funcl6n de impureza y, par tanta, la funci6n l(s) calcula la media ponderada (dependiendo de
la cardlnalldad de cada hijo) de la impureza de los hijos en una partici6n.

Baja esta formula general, cada criteria de partic16n implementa una funci6n f distinta, como
se muestra en la tabla 2.1:

Tabla 2.1 Funclones de lmpureza para algunos criterios de parli cl6n

Crlterio /( 1
pl, l
p, c
... , p)
I I

Error esperado 1
min(p ' p 1 ' ... , p ' )

GINI (CART) 1 - }:(p )2


I

Entropfa (gain)
LP log(p)
I I

DKM 21n(p i";


I

Torn ado de: Blanco, 2007.


Capitulo 2: Tecnicas y apllcad6n de la mlner:fa de datos

2.2.2 Redes neuronales


Segun Chong Ho Yu et al. (2010), las redes neuronales, tal coma su nombre lo indica,
tratan de imitar a las neuronas interconectadas de las cerebros animales con el fin
de hacer que el algoritmo sea capaz de realizar un aprendizaje complejo y extraer
asr patrones Y detectar tendencias. Este esfuerzo se basa en la premisa de que las
estructuras de datos del mundo real son complejos y, par lo tanto, requieren el
aprendizaje de sistemas complejos. Deese modo, una red neuronal entrenada puede
servista como un «experto» en la categorfa de informaci6n que ha sido dada a analizar.
Este sistema experto puede proporcionar proyecciones y dar nuevas soluciones a un
problema del tipo «lque pasa si ... 7».

La red neuronal tipica se compone de tres tipos de capas, a saber: la capa de entrada,
la capa oculta y la capa de salida. Es importante observar que hay tres tipos de capas,
no tres capas en la red. Puede haber mas de una capa oculta y la complejidad de esta
depende de c6mo el investigador plantee el modelo.
La capa de entrada contiene las datos de entrada, la capa de salida es el resultado,
mientras que la capa oculta realiza la transformaci6n y la manipulaci6n de datos.
Debido a que la entrada y la salida estan mediadas por la capa oculta, las redes
neuronales son comunmente vistas como una especie de caja negra.
Benjamfn Moreno (2009) sostiene que el llamado perceptr6n multicapa (multilayer
perceptron) es uno de las modelos de redes neuronales mas utilizados. Este surgi6
de una generalizaci6n del modelo propuesto par Rosenblatt en 19582 . Este modelo
planteaba un perceptr6n simple de una sola neurona para separar par medio de un
hiperplano un conjunto de entrenamiento linealmente separable (Moreno, 2009).
Explica y detalla este autor:
/

En el caso de las seres humanos dentro del cerebra existe un numero equivalente de 1010
de neuronas y con un aproximado de 104 interconexiones entre cada una de ellas. A nivel
del funcionamiento de cada neurona, este es muy lento comparado con un procesador
(las neuronas realizan 10 operaciones par segundo mientras que las procesadores realizan
millones de operaciones par segundo).

Las partes que conforman a una neurona son tres: las entradas llamadas dendritas, el cuerpo
mismo de la neurona y las salidas llamadas axones. En la pa rte final de cada axon se encuentra
un elemento que permite la comunicaci6n con mas dendritas de otra neurona, llamado
sinapsis. Las neuronas aceptan miles de sei'lales de entradas con una fuerza determinada,
dependiendo de estas la neurona emite una sei'lal de respuesta, par lo que las sinapsis
pueden entonces trasmitir una sef\al debil o fuerte dependiendo de la fuerza que haya salido
del procesamiento de la neurona. Desde un enfoque matematico el funcionamiento de una
neurona puede representarse par una lista de sus seflales de entrada que son multiplicadas
par sus pesos correspondientes y despues son sumadas cada una de las entradas.

2
Vease el articulo de Rosenblatt: Rosenblatt, F. (1958). The perceptron: a probabilistic model for Information storage and
organizationin the brain. Cornell Aeronautical Laboratory Psychological Review. Vol. 65. pp. 386-408.
--,
e la , u a, q ee ntrada acia las de as ne rn as
It , El , del I perceptr6n sim e es uno de m c as
na·l am ial. t ual ttataba de imitar el compo lamient
n njunt de e ntradas a nes simples ~as cuales s
u . d la neurona a t ra · s de un conJu to de
eptr6n se encuentra una funci6n Que su a
n d ta neurona, En la figura 2.9 se m esn-a
un re ptr6n simple.

' )

n r-,ta
Termina i ne
del Jxo n
uer e la
·oma) ma is

~
Nu I
Mielina
/
Sinap is
siguiente

EntrJda

Sali a
f (l )
\x n

A. n Dendritas
in, psi

FlsurJ 2. M del rc,~I de la neuronJ (a) y rn od I de per eptr n simple (b)

T nt el p rteptr6 n simple corno el perceptron multicapa (PMC) son repres ntaci 1nes ~
un a r d n uronal Jrtifi i;,il. Cuando se unen varios perceptro nes en una capa tirnul 5 vI s
re lbidos en las entr(ldas de · ada uno son sun1ados, se considera que se ti ne uI1,1 rt:1d
neuron I. El - nfoq ue d I PM C e, precisame nte cornbin ar varios percep tr n simpl es e ll un
esq uema d nd la sa lid s de ada uno, son tran smitidas vari as ca pas hast a ll egar fi11<il rnentt:1
las salidas d los PM .
Capttulo 2: Tckntcas y apbci4n de la mlnena de datos

La estructura de PMC esta dividida por capas las cua les son: la capa d entrada, la s)
capa(_s) oculta(s) Y la(s) capa(s) de salida(s). En este ti po de red neurona l artificial se ingre a
un numero de entradas que van conforme al numero de neuronas que hay en la apa de
entrada, despues estas se conectan con las neuro nas de la capa oculta por rn dio de verti .es,
en donde cada salida de las neuronas presentes en la ca pa de entrada, se asocia a c da una
de las neuronas en la capa oculta.

Una vez que estan conectadas todas las sa lidas de la ca pa de entrada a las entradas de las
neuronas de la capa oculta, se repite el mismo procedimiento en caso de qu se presenten
mas capas ocultas, si no es el caso las salid as de cada neurona en la capa oculta es conectada
a la capa de salida, de la misma forma que se describi6, teniendo finalmente las salidas fi nales
del PMC. En la figura 2.10 se muestra el esquema basico del PMC:

1--~ s.

Capa de entrada Capa oculta Capa de sal1da

Figura 2.10 Modelo del perceptr6n multica pa - retropropagaci6n

En las decadas de los 60 y 70 no hubo metodos de entrenamiento apropiados para los PMC, se
vio detenido el interes por estas tipologias. Fue hasta mediados de los 80 cuando Rumelhart
[52] propuso un metodo de entrenamiento para las PMC llamado retropropagaci n
(backpropagation ).

Funcionamiento del perceptr6n multicapa , retropropagnci6n


El termino retropropagaci6n se basa en el metodo del gradiente descendlente para encontrar
el error en una red hacia adelante (feed-forward, de aprendizaje supervisa do, en donde se
necesita un conjunto de entrenamiento y el valor o meta esperada), que es una aplicac i6n
directa de la regla de la cadena utillzada en calculo diferencial [53] .

El funcionamiento de este tipo de redes neuronales artificiales se puede dividir en las


siguientes dos etapas:
1. Los dates de entrenamiento se pasan hacia delante, las salidas son calculadas alw land
el error en cada caso.
2. Se realiza entonces el paso hacia atras en donde el error calculado en la capa de alida, e
utiliza para cambiar el peso de cada capa oculta de la red neuronal, ha ta II sar a la capo
de salida, calculando recursivamente los gradientes locales para cada neurona.
l
Al final de estas dos etapas se tiene un PMC entrenado.
, . d construccion de un PMC:
A continuaci6n, se muestra el algoritmo basico e

1. Determinar la arquitectura.
• Cuantas unidades de entrada y salida.
• Cuantas capas ocultas y unidades en cada capa oculta.
· · ·
2. lnic1alizar todos los pesos y sesgos a valores aIea t O rios pequenos por ejemplo E [-11]
, Yel
valor den.
3. Repetir hasta que el criteria de terminacion sea satisfecho.
• Presentar un ejemplo de entrenamiento y pasarlo par la red (forwa rd pass).
• Calcular la salida actual y el error en cada salida.
• Adaptar los pesos empezando por la capa de salida ytrabajar hacia atras (backwardpass).

En donde se tiene:

W (t + 1) = w (t) + LiW ➔ w (t) Peso del nodo pal nodo q en el tiempo t


pq pq pq pq

LiWpq = n. 8q . Op ➔ Cambia de pesos

8.=
I
(8.-
I
0
1
). o . {1- O} ➔
I I
Para cad a unidad de salida de la neurona i

8,= o,. {1-0) . LWij. 8;


,

En donde para cada unidad oculta j, y la suma sabre todos los nodos i en la capa anterior j, Oi
son las salidas obtenidas y 6 i son las salidas deseadas.

Es necesario proponer una funcion f sigmoide (la funci6n de activaci6n en el caso del
perceptron simple), que sea diferenciable. La funci6n sigmoide es una de las funciones de
transferencia mas utilizadas. Produce salidas continuas y proporcionales al nivel de activaci6n
de la neurona dentro del rango [0,1); sus niveles de saturaci6n son 0 y 1, por lo que su salida
maxima sera 1 y la mfnima 0. Cuando el nivel de activaci6n supere al umbral de saturaci6n
maxima la salida seguira siendo 1 y cuando el nivel de activaci6n sea inferior al umbra! de
saturaci6n mfnimo la salida seguira siendo 0. Es comun to mar la funci6n sigmoide exponencial
denotada por:

Cuya derivada es:


1
f(x)=-
1 + e-x
1
f'(x) =
(1 + e-')2e-•

Aunque tambien se usan otras coma la tangente hiperb61ica :


e• - e-•
f(x)=---

o la entidad :

f{x) = X
Capftulo 2: T~lcas y apllcadOn de la rntnerfa de datos

Si escogemos la funci6n sigmoide exponencial tendrfamos el siguiente criteria :

1
Si f(x)=--
1 + e-•

entonces f '(net) =f(net). (1 - f(net)) =0 Q


. (1 - 0)
Q

Usualmente se utilizan criterios de para para este tipo de metodos, las cuales son :

1. Numero de epocas: se le llama epoca al proceso de entrenar 1 vez el perceptr6n multicapa


sabre todos las ejemplos.
2. Error minima cuadrado: esto se realiza al llevar acabo el entrenamiento, en donde se
tiene un registro de las errores que se van presentando en cada una de las epocas y se
decide parar cuando se encuentre un error mf nimo.

En cuesti6n de las funciones de activaci6n tenemos las siguientes opciones:

1. Diferenciables (el metodo propuesto de retropropagaci6n).


2. No lineales.
3. Monot6nica (una funci6n que siempre crece o decrece).
4. Lineal para valores pequenos.
5. Asimetricas.

Tornado de: Moreno, 2009.

La construcci6n de la red neuronal se realizara a traves de un exhaustivo proceso de


experimentaci6n basado en la prueba y el error, en el cual la precision y la capacidad
de generalizaci6n del modelo dependeran del numero de neuronas en la capa oculta.
Dicho numero debe ser suficiente para la realizaci6n correcta de la predicci6n, pero lo
suficientemente bajo como para poder permitir la generalizaci6n.

2.3 Aplicaci6n de la mineria de datos


En la actualidad, segun Hernandez et al. (2004), la minerfa de datos se esta aplicando
en diferentes campos de manera satisfactoria. La siguiente tabla es un resumen de los
diversos ambitos en los cuales esta practica esta contribuyendo activamente.

Tabla 2.1 Diversas aplicaciones de la minerla de datos

Pr:bblema
• ldentificar patrones de compra de los clientes
• Buscar asociaciones entre clientes y caracterfsticas demograficas
Comercio y marketing
• Predecir respuesta a campanas de e-mailing
• Analizar la canast~ de compra
B n

i:,t(mco-,

Seguros v alud prlvada

• Dcterm,nar Iii planiflcaci6n d la di'tribuci6n entre t1endas


Transportes
• Anal lza r J1Jfronr~:; de carga
• ldent1f1ca r t raplas medlcas atfsfactor1as para diferentes
Medlclna nf rmedad s
• Asoclar sfntomas y clasificaci6n diferencial de patologias

• Extraer modelos obr corn portamiento de compuestos


Procesos lndustrlales • Det ctar piczas con trabas
• Predecir fallo!>

Fuente: el autor.

Hay muchas otras areas en las que interviene hoy en dfa la minerfa de datos. Para
saber mas acerca de este asunto en particular, se puede consultar un documento
ubicado en la siguiente direcci6n electr6nica : <http://www.it.uc3m.es/jvillena/ irc/
practicas/06-07/22.pdf>. En este archivo subido a internet hay informaci6n sobre otros
ejemplos interesantes como las siguientes:

6 .4 Investigaci6n cspacial
6.4.1 Proyccto SKYCAT

Durante seis af1os, el Second Palomar Observatory Sky Survey (POSS-II) coleccion6 tres
terabytes de imagenes que contenfan aproximadamente dos millones de objetos en
el cielo. Tres mil fotograftas fueron digitalizadas a una resoluci6n de 16 bits par pixel
con 23040 x 23040 pfxeles por Imagen. El objetivo era formar un catalogo de todos
esos objetos. El sist_ema Sky l~1age Cataloguing and Analysis Tool (SKYCAT) se basa en
tecnicas de agrupac16n (clustenng) y arboles de decisi6n para poder clasifica r los objetos
en estrellas, planetas, sisternas, galaxias, etc., con una alta confiabilidad. Los resu ltados
han ayudado a l~s ~str6nom_os a d~scubrir dieciseis nuevos cu asares (sef'iales radiales
lejanas) con comm,ento hac1a el roJo que las lncluye entre lo b' ,. . del
. . s o Jetos mds 1e1ano 5
universe y, por cons1gulente, mas antiguos. Los cua ares son fuent d X diaci6n
· 'bl t b',/.. • f . es e rayos , ra
ultravioleta, luz v1s1 e Y am lt'n in r arro1a; en otras palabra .. d d' '6n de
. · s, 1a emIsI6n e ra IacI
105 cuasares resulta inten a en todo el espectro lectr ,/.. . son
. .. omagno::t1co. Estes cuasares
dlffciles de encontra r y P rm1ten saber mas acerca de r .
Ios or genes del universe.
[ ... J
6.6 Textos WEB MINING
6.6.1 Medicina

~na aplicaci6n _m uy po~~lar del text mining es relatada en Hears (19SSJ. or w 2. so


intenta extraer 1nformac1on derivada de colecciones de t ·x t T · d .
, e , o . ,e 1en o e I c en e cs
expertos solo pueden leer una pequena pa rte de todo lo que se p blica 0 c..ampc, y
5 0
lo general ta~poco pueden tener en cuenta los nuevos de arrollos q e ~e _ eeden e ns
O
campos relac,onados, y teniendo en cuenta que la cantidad de n evo r e ,- - , se
O
publican es cada vez mayor, la aplicaci6n de la mineria de datos e c lec.cio es c;E: ~eY'.'
1 12
resultando mas importante. Asf, Swanson ha demostrado c6mo cade 1a e I rol1cac1 ,E:S
0
causales dentro de la literatura medica pueden conducir a hip6tes,s para e ern eda .e; occ,
1
frecuentes, algunas de las cuales han recibido pruebas de soporte expen ,e -1. 1 11esti~ c
las causas de la migrana, dicho investigador extrajo varias piezas de evide cia 2 pa . _e
titulos de articulos presentes en la literatura biomed ica . Algunas de esa f21e • e ,:

• El estres esta asociado con la migrana.


• El estres puede conducir a la perdida de magnesia.
• Los bloqueadores de canales de calcio previenen algunas migranas.
• El magnesia es un bloqueador natural del canal de calcio.
• La depresi6n cortical diseminada (DCD) esta implicada en algun as migra - as.
• Los niveles altos de magnesia inhiben la DCD.
• Los pacientes con migraf\a tienen una alta agregaci6n plaquetaria.
• El magnesia puede suprimir la agregaci6n plaquetaria.

Estas claves sugieren que la deficiencia de magnesia podria representar un papel e alg nos
tipos de migraf\a, una hip6tesis que no existia en la literatura y que Swanson encontro e<fi e
esas ligas. De acuerdo con Swanson, estudios posteriores han probado experimentalme te e.sta
hip6tesis obtenida por text mining con buenos resultados.

Tom ado de: Virseida, F. & Roman, J., s.f. Disponible en: <http://www.it.uc3m.esfJvillena/irc/practic.as/~

Para continuar con el entendimiento de la mineria de dates, la discusi6 n se va cen ra e n


seguida en una sola area. En este caso, se trata de la mineria de datos e n la educaci6n
y, especfficamente, de la forma en que esta es aplicada en el ambito de la unive rsidad .

2.3.1 Mineria de datos en la educaci6n


La comunidad de mineria de datos web <www.educationaldatamining .org> defi ne la
minerfa de datos en educaci6n de la siguiente manera:

Educational Data Mining is an emerging discipline, concerned with developing me_thods for
exploring the unique types of data that come from educational settings,_and using those
methods to better understand students, and the settings which they learn ,n.

[La minerfa de datos en educaci6n es una disciplina emergente, preocupada por el desar~ollo
de metodos para explorar los tipos unicos de datos que provienen de los centros educanvos,
institutes, universidades, y el uso de esos metodos para entender mejor a los estud1antes l

Tornado de: <www.educationaldatamining.org>. Traducci6n del autor.


l
cef efialan acerca e la

m stan ar '
p rtunities
·a er in re&SJ.

r en ren 3 .]

e la mineria de atos apli ada al 2


era I e •m diferentes a tores del E 1
eden • enefi iarse n i rsas e ·e~
se pue en en ntrar en el ~a al 1f
prime ED

Collects a rl e EOUCAllONAl.
INF.stSTEMS
ITS. AEt1, TU,. tMS

EDUCAT. DATA

EDUCATORS r-----.L
ea ers,
1,>1b.
:-t I t' I ( ,
f ,, , .::.::- ," r, 1
,

', ·t, t.

Figura .1
Fuente: <I · •1i1
Ahora se van a revisar algunas investigacianes de minerfa de datas que se han realizado
en el campo de la educaci6n. Para ella, se tamar;l coma eje tem;itica las Ultimas
investigaciones hechas sabre deserci6n estudiantil en institucianes de educaci6n
superior. De este grupo se dar;l mas impartancia a las investigacianes que se hayan
llevado a
arboles decadecisi6n).
bo mediante el uso de t<ecnicas de minerfa de datas (redes neuronales y

a. Nandeshwar et al. (2011) realizaron un trabaja para predecir si las estudiantes se


mantendrian en la universidad durante las tres primeros arias de una licenciatura.
Para este estudio, los autores consideraron 103 variables, algunas de las cuales se
pueden observar en la tabla 2.2. Al finalizar esta investigaci6n, se lleg6 a la conclusion
de que los factores mas importantes para que un alumna continue estudiando son
el sueldo familiar, la situaci6n socioecan6mica de la familia, el promedia de notas
escolares y el rendimiento academica de las pruebas en la educaci6n superior.

Tabla 2.2 Lista de atributos por hip6tesis planteadas


,.
't:
·~

f';,;'; _._ !

Desalpd6n de ayuda
Atrlbuto Descrfpd6n de indlc:adores
'

flnandera de rendlmiento
FinAidAwardType_G Manto de subvenciones
de ayuda financiera ACT_COMP ACT puntaje integral (antiguo)

FinAidAwardType J Manto de ayuda financiera ACT puntaje de


en las puestos de trabajo ACT_ENGL
Ingles (antiguo)

.FinAidAwardType L lmporte de ayuda ACT puntaje de


ACT MATH
financiera de prestamos Matematica (antiguo)
lmporte de ayuda
FinAidAwardType S ACTl_COMP ACT puntaje integral (nuevo)
financiera de beca

lmporte de ayuda.
FinAidAwardType W ACTl ENGL ACT puntaje de Ingles (nuevo)
financiera de renunc1a
ACT puntaje de
FinAidDEPENDENCY Estado de dependencia ACTl MATH
Matematica (nuevo)

FinAidFATHER ED Nivel de educaci6n del padre ACTEQUIV ACT equivalente al puntaje

Maximo del puntaje ACT


lngresos del padre MaxACT
FinAidFATHER WAG y el eq uivalente ACT

Nivel de educaci6n COMP READ Leer puntuaci6n de alcance


FinAidMOTHER ED de la madre
COMP Escribir puntuaci6n
FinAidMOTHER WAG lngresos de la madre WRITE de alcance

lndicador de ay~da SAT TOT Puntaje total de SAT


FinAidOfferedlnd financiera ofrec1da
SAT VERB Puntaje verbal de SAT
lngreso bruto de los padres -
offered indicator
C6digo de la e_scuela
Tamano del hogar HS CODE secundana
FinAidPARENT HOU de los padres -
Rendimiento academico
' HS GPA del coleg10
FinAidPARENT MAR
.. de los padres
Estado civil -
i 'jil'",

..... , ~

.. ,...~.,., ...
tlMnclerl
Tlpo de formuliHIO
Mrlbuto

HS_PERCE NT
I
Ducrlpcl6n d1 lndlcado"'

PN
d1 rtndlmltnto '
nlll de la ('. ,U(-:;-
FlnAldPARENT TAX ' unclarl,1
lmpuesto de los padres
' ( 'II 1.1 (",LI H•l(I
p0°,I CIOII ---
HS_RANK
FinAldSPOUSE_WAG Salarios del conyuge

HS_SIZE
~ccu1 H lr1r l<1
Tamoi'\o de r.las dc- lo --
FlnAldSTUDENT_AG

FinAldSTUDENT_HO
lngreso bruto de los estudlantes

Tam ai'\o de familia de RankHSGPA


es u · la secund, rl~
Percf'nt ii cir •\ rf'1Hfo111<•i ,tD
acilrlf'ni1c11dr- tr,l\(J•, \u,
-
las estudlantes e~tudi.intc", d1·\ 11111111•1.ii\c,
P re nti l de\ r1ct. maxirno -
FlnAldSTUDENT_MA Estada civil de los estudlantes RankM axACT de todos los c I ud1antc:\
de\ primer a1o

Tipa de formulari o impuesto \115cn 10 en cl cu, o


FinAidSTUDENT_TA ANTH18
de las estudiantes li t' Ant ropolofdil
lnscri t a en el cur o cl
FinAidSTUDENT_WA Salarla de las estudiantes BSCllO
Cl ncia blol6gi n
lndicador de la primera lnscrit o en f'I cur~o
FirstGenlnd CHEMlO
generacion d Quimica
TotalFlnAldOffered Total de ayuda ofrec\da ENGlO lnscrlto en el ur ode Ingle

ENG 11 lnscrito en f'I cuI -.,o dt' 111~\t•,

lnscrito n ('\ C\11 $0


GEOLll
de G ologir1
l11scrit o 0 11 Cll l '.,O1,
LEST16
dl' cti~ t r,1 t l 1011
-
MATHlO In crito n I I cur de
nivel 100 cir M,1tl•11i.\ti~
lnscrito <'11 p\ l u1, l1d,·
MATHll

MATH12
nivcl I 10 d(' M,11,•111,1t1l.1
lnscrit o 0n r•l t tII ,(l Ii'
- -
niv I 1. 2 ci(' \\,\,l\l'll1,\lll\1
\n ~c1itu t'l l l'i 1111,,llk
MATH14
nlvl'I \ '1 d , l\l.11 ,•11 1,11 n-' ...

In I i \ (1 (' 11 (' \ ( l II sl) dl'


PHYl l
niv I I I dL· I 1,iL,~ _.....

Fuente: Nandeshwar et al. (2011).


PEP15 l n s c 1It o r n C'I t ui •,P 1 '

. - I · 1lll''I
l S rt• [rlu< .1t 11',n l 1"•I1 ''..---

j
Para el estudio se aplicaron tecnicas coma one-R, C4.5, AD trees, redes bayesinas, bayes networks y radial biasnetworks. De todos
ellos, fueron usados para el experimento los arboles de decision (vease la figura 2.2) y las redes bayesianas, con lo cual se obtuvo
una precision del 90 %.

- 1
0ptimista I
17% $1,100,000.00
$ 2,100,000.00
'
$ 1,033,333.33

lgual que
true - - 4
lngresos Mas probable 67% $50,000.00
la inversion $ 950,000.00
$ 1,000,000.00

1
Pesimista 17% $ 700,000.00
$ 300,000.00
Inversion ~ $33,333.33
35%
Optimista 0% $ 550,000.00
$ 260,000.00
false
Otro
$ 800,000.00
lngresos

< Pesimista
65%
$ 260,000.00
0% $ 540,000.00

false
Yuna 0%
$ 0.00

Figura 2.2 Arboles de decision


Fuente: Nandeshwar et al. (2011).
En la siguiente tabla se muestra un resumen de la literat ura que revis6 el aut or. Ta rnbien se detallan las tecnicas y la precis_ion Que
se obtuvieron en cada uno de los estudios revisados.

Tabla 2.3 Reporte de tecnicas usadas v precision obtenida


1 ~,.; -
·AIIIDr (ailD)
....... del
Malas klenldas(I) aa11111ldas l") M111das.P1esld6n Cd,J 1 tr
l"IPO • •• n
Rl de 0-3132 oara
Spady (1971} 683 615 90.04 horn~ y 0.38- 9 ::,1 fIBf;T3J.OT' .....,ut:;pe
para muJ~
ii.2 de 0.22 :::,2 '=
Bean (1980) 906 769 84.88 rr uJe re,, \ iJ 09 s ~"':31.0- "7')..Jb::,ti>
para hombro

EstucflO 1 379 60 15.8 R2de 0.l~ Si ,.:._.~i,; d s r r ~


I

Terenzini&
Esrucfio 3 518 428 81.63 iU ce- {U55 5,_
I : ~- ~-LY' - , Jb:>l:?

PascareJla (1980) Estudio5 763 673 88.20 Rldeo.303 s. ~&ss liisor.c:ni.s-..tr


j
~ ~ 0 ~-6::->-:~
Estudio 6 763 673 :38..20 ~ . . r T":: , . :_
. ~5..3 s :t_- a 1:;;:;, :js._
- n.r-~~
P.: ~ - ... - ..~~s \ I

~ (1989) 323 ~ 9LOO SA ~8.gs:m \

I-0-
~, - 7·::-•~ ~: .3,3--!- - :if' ", :r: ,:,t '
Dey & Astin (1993) 947 1s::: :&oo ll.:3.:' L \ tl.323
s. \ - ~~i:,-

Proba~ ~ o,a,o,WS
Murtaugh et al. (1999) 8667 5200 60
~~~3~
s ~ S..,~t'\~ ,
I
~i~
Bresciani & Carson
(2002)
3535 3:~1 SS.3f\ :;_: ~'::' .."' ~'.::
I
~- ::- ~~:-.l.'"'1-- (..~.. !:---.~-;

Cualquie r de-sen:ion t
I
no solo d e pnmer
ai\,:i- preos1ones
G.lynn et o l. l2003)
sabre la ba5e
3 2 .:.1 l~':l2 .1-i L'S :-,.,_,' ---· :,''. _'. : ,· -- ~
·\.
I
:- "..-.~"'·:~·1..,' 1~ l'¥ :::-,.."l.- >

\ de k b jat;:is di.:
ent ren.ln"en t o \ I I I
..,,_,
-- ........
ll'UDO
1111,nld•· ......... 11■ ••••p1111II H e- ■1 11 .. 11 t . .,
111

5261 4014 76.30 77.4 % dfc preosjon s.: ;;_~f:'',Y',i( ·~

Herzog (2005) 4 298 3314 77.10

4671 4040 83.50 85.45 de precision 5i P~c<...J6r i.: ig::soca


8L6 % de prerisol
scbre el entrenamiento,
2444 194 3 7950 Regrewn.ogistle3
el 80,7%en
validacioo
83.9 % de precision
w bre el entrenamiento,
Sujitparapitaya (2006) 2445 1994 79 50 Retles neuronates
el 82,1 % en
validacion
855 % de precision

2445 1994 7950


wbre el entrenamiento,
el 84,4 %en
(4 .5 ,,
f
validacion
Redes neuro nales,
CHAID,
Precisio n cerca ~
Herzog (2006) 8018 6037 75.29 C4.5, CR&T,
del 75 %
regresion logistica

Precision de la Arboles de decision


Entrenamiento 3829 3149 82.24
desercion 91,84,84,78 (entropy, chisq,
Atwell et al. (2006)
Precision de la gini) y regresion
Prueba 5990 4881 81.49
desercion 88,2,82,73 logistica
AdaBoostMl
Precision de entre
De Long et of. (2007) 50 with decision
57%y60 %
st umps
Precision total de
Regresion logfstica,
78-81 %, precision
Pittman (2008) 21,136 17,139 81 .10 redes neuron ales,
de no retencion
Bayes, J48
de 44-63 %

Fuente: Nandeshwar et al . (20 11).


· · de lo e tutl i 5 he h ~ e
I asa eh & Hobson {201 1) hicieron una rev 1smn d _ t d ' t... tr·atl i _ _ 'Le
. d meto os e a 1 . , l 11,1,;:iJ
eserc16n estudiantil, a partir del uso e . d id tifi ar I ra lul
s ecnicas cualitativas utilizadas con el fin e en _ P~que
. ltadode st , 1o ut r . 11111
a ec an la re encion de las estud1antes. Como res u . a1,
r pr cisioh que lo 111 ludo d
los me odes estadisticos por mostrar una m eno - fl
1 erfa de datos. En consecuenc1a . desarro II an dos modelos d red . t1 Utrn,ale t .'i
· •
{ gura 2.3) que emplean una red de alrmentac on -1' hacia adel. ht P r pr ti
, t 11I
a
· , d
re enoon de estudiantes en las carreras e c enc I las e ingen1erfa I r ITl l1 u Lie Ia
nable principal que vend rfa a ser el rendimiento academl co (GPA) .

Input Hidden layer Output layer

()
P1 a, ;i ,- y
IW , 1 LWi I
2 X i 4xl I t J -►
4x2 nl

4x l
-;:- 3x4

4xl 3 )( 1
4
____ _ ___J _)

Figura 2.3 Mufti/ayer feed forward back propagation network


Fuente: Alkhasawneh & Hobson (2011).

El primer modelo que plantea el trabajo de investigaci6n predice la retenc16n de


estudiantes del primer anode ingreso e identifica factores correlacionales ntre los
factores preuniversitarios. Par su parte, el segundo modelo clasifica a los grupos
de primer ano en tres clases : en situaci6n de riesgo si el GPA es m enor que 2.7, en
nivel intermedio si el GPA esta entre 2.7 y 3.4, y, por ultimo, en nivel alto sl el GPA
es mayor a 3.4. El experimento se realiz6 con un total de 338 estudi antes de 1°5
cuales el 44 % representa a las carreras de ingenier{a y el 56 % corresponde a los
alumnos de ciencias. En las tablas 2.4 y 2.5 insertadas a continuaci6n se muestra los
resultados obtenidos en cuanto a la precisi6n del modelo.
/
Capttulo 2: T6cnlcas y apllcacl(m de la mlnerfa de datos 47

Tabla 2.4 La mejor precision obtenida para el valor R

Vlrlable S&E Clencla lngenierra


Valor R 0.54 0.57 0.59

Precisi6n 68% 70.S % 68.9%

Total 338 190 148

Fuente: Alkha sa w neh & Hobson (2011).

Tabla 2.5 Resumen de los resultados de analisis de errores

Variable S&E Clencla lngenleria

Mfnimo 0.002808 0.000519 8.06E-05

Maximo 2.623909 1.652878 2.772855

Promedio 0.41657 0.408178 0.410695

Fuente: Alkhasawneh & Hobson (2011).

c. Jadric et al. (2010) realizaron un estudio de la deserci6n estudiantil para lo cual


usaron la metodologia SEMMA yen seguida aplicaron tecnicas de mineria de datos
como regresi6n logistica, arboles de decision y redes neuronales. En ese proceso se
tomaron en cuenta las variables que se muestran en la tabla siguiente:

Tabla 2.6 Variables identificadas

Variable

ID Sexo Estado

Calificaciones del padre Calificaciones de la madre


Programa de estudios

lndicador de la vivienda Agrupacion del examen de entrada


Condici6n social

Fuente: Jadric et al. (2010).


El experimento fue llevado a cabo con cada una de las t ecnicas antes m ncionad
Y para ello se tom6 una muestra de 286 estudiantes. Despues del entrenan11e as
. . n~
se pudo observar que 98 estudiantes desertaron, mientras que 188 studiLJnt
contin_ua ron sus estudios. Esto ocurri6 despu~s del segundo af\o tal como s niuest~~
en la figura siguiente:

1 34.3 '6 36.3 9'


2 65.7 96 63,7 9'
1 98 78
2 188 137
Total 286 215

M1t-OceJena

1 ... 3

1 100.09' 100,09' l 9.2 9' 11.6 9'


2 0.0 ,t, 0.09' 2 90.8 9' 88.4 ,t,
1 79 60 1 19 18
2 0 0 2 188 137
Total 79 60 Total 207 155

Stat-Ocefena

1 ...3

1 100.0% 100.0% 1 6.09' 9.3 9'


2 0.0% 0.0 % 2 94.0 9'
1 7
90.79'
4 l 12
2 0
14
0 2 188
Total 7 4
137
Total 200 151

JuE•Otejena

... 2

1 16.3 9' 22.69' 1


2 83.7 'J(i
1
2
8 .,
11.49ili
41 24
Total 49 11t
31 i ot al l 1

Figura 2.4 Analisis par arboles de d .. .


ec1s1on
Fuente: Jadric et al. (2010)
Una vez comparados los m,.(.t d .
e o os experim ent d
neuronales se comportan mu b' a os, se determine que lac r d
. Y 1en en problem d 1 . . . , .. e es
Sin embargo, su desventaJ·a e ., as e c as,ficac,on mas comple·o
, n comparac,on co I , J s.
que ver con el modelo de aprend · . n os metodos mas sencillos tiene
izaJe, ya que este · r '
Iento y exigente (optimizaci6n de I f ,mp ,ca un proceso relativamente
os actores de peso) .

% de respuesta
80 - i -- --.1.-

10 20 30 40 so 60 70 80 90 100

Nombre de tecnlcas
■ Regresion ■ Arbo! de decision

■ Regresion - 2 ■ Linea ba se
■ Redes
■ Redes - 2

Figura 2.5 Evaluaci6n y comparacion de modelos


Fuente: Jadric et al. (2010)

d. Lykourentzou et al. (2009) desarrollaron un metodo de predicci6n orientado al


fen6meno de la deserci6n estudiantil en los cursos de e-learnfng. Este metodo se basa
en tres tecnicas populares de aprendizaje automatico. Las tecnicas de aprendizaje
automatico utilizadas son las redes neuronales con aprendizaje hacia adelante, las
maquinas de soporte de vectores y el conjunto probabilistico simplificado ARTMAP
difuso. Los autores mencionados tambien senalan en su artfculo que una sofa
tecnica puede fallar para clasificar con precision a algunos estudlantes de e-/earning,
mientras que otro puede tener exito.
7
coo esto. se plantean tre.s sistemas de toma de decision.es fund amp ~~ V,Qry
e a mostrado en la figura 2 .6, los cuales se com b man para obti:; ·
0 es n .nl ..,tl l os a
s;; .. artir de las tre.s tecnicas de m.aquinas de aprendiz.aje_-· I~

~ I

0 te l i IO, 1, 2, 31

~
- - -~ - -- e3

,,.
"

se u ·1izaro ta to las ariables que O sa· i

s a(a les q e sf lo so (ses,on~


la tabia 2.7 .
Tobia 2. 7 Atributos de estudiantes usadas para el entrenamiento y testeo de redes de aprendizaje
automatico

Categorfa reladonada
Atributo Rango de valores
con la literatura

Genero Masculino, femenino

Demografi co Residencia Capital. provincia

Atributos invariantes Experiencia de trabajo >=0 anos


en el tiempo
Basico, intermedio,
Nivel de educaci6n alto, grado de
Rend imiento master, gr·ado PhD
academico
Elemental, basico,
ldioma ingles
alto, completo
Calificaci6n del
exa men con 0-20
opciones m ultiples
Calificaci6n de
0-100
proyecto
Atributos variables
en el tiempo Fecha de presentaci6n
del proyecto (dias
>= 0
contados a partir de
la secci6n de plazo)

Actividad de la secci6n >= 0

Fuente: Lylcourentzou et al. (2009).

El metodo fue examinado en terminos de precision general y sensibilidad. La precision


obtenida se encontraba en un rango del 75 % al 85 % y sus resultados fueron
significativamente mejor a los de otros trabajos realizados.

e. Dekker et al. (2009) realizaron un trabajo de minerfa de datos aplicada a la educacion


basado en la informacion existente en torno a los alumnos de lngenieria Electrica
de la Universidad Tecnologica de Eindhoven (donde la desercion es de 40 %}. El
periodo elegido fue el tiempo despues del primer semestre de estudios y el anterior
al ingreso al programa. El objetivo del trabajo fue determinar que datos (variables)
son las predictares de la deserci6n y determinar cuanda la predicci6n es mejor, asi
coma las variables a utilizar en el desarrollo del trabajo de investigacion, las cuales
tienen que basarse a su vez en los datas preuniversitarios.
7
. tes usadas para e·I est dio
Tab a 2 8 Atributos de estud1an

Dauipci6w
Atrtbutos 1lpo

IDNR Numerico Solo para chequear los datos

Principales cambios en el siste 2 °c1 -- - ---- J:.


..._ - _, _ - ' - 1-:i ·

Ano vwo Nominal {1.4, 'n/a' }

Currkulo VWO Nominal Curricula de educad6n pre e - -a {: : . ~? ,

Numero de cursos VWO numerico Numero de cursos tomado s

{n/a, pobre, promedio, sob e e r r ff :


-
-
Promedio VWO Nominal
excelente}
-
Numero de cursos de
Nominal {n/a, < 3, 3, >3 }
ciencias VWO

Promedio en ciencia VWO Nominal AsVWO mean

Numero de cursos de
Nominal {n/a, 0,1,2}
matematicas VWO
Promedio de matematica
Nominal AsVWO mean
vwo
Educaci6n HO Nominal {n/a, electrico, tecnico, o ro
-
Ano HO Nominal Igual categoria VWO afio
-
Grado HO Nominal As VWO mean

Ano Gap Nominal {n/a, <-1,-1, 0, 1, >1}

Clasificaci6n Nominal {-1, l}

Fuente: Dekker et al. (2009).

El experimento fue hecho con la participacion de 648 estudiantes ~ ,,._


lngenierfa Electrica. Los resultados obtenidos mostraron que los clas·, : :.
sencillos e intuitivos (arboles de decision) dan informaci6n significa · l "·
una precision de entre 75 % y 80 %.

f. Lin et al. (2009) realizaron un trabajo en el cual se propane una c


cinco modelos de retencion y se hace uso de cuatro metodologfas de e O -":- ~~
l j~ ' t ··

entre las cuales se encuentran las redes neuronales, la regresi6n logf · a, el•:i.:<l--·
discriminante y el modelo de ecuaciones estructurales. En los modelos e ... r:}
propuestas se consideraron diferentes conjuntos de datos que an es e ., q•.-=
71 variables de entrada, entre ellos, variables de factores cognitivos o
que pueden ser revisados en la tabla 2.9.
C I I Ca 2: T«nicas y ~ A.lcl6a da la 1R1ner1a de datos

Tobia l .9 Prediction de reten ·o de e diantes de ingenieria

Variables para la retenci6n un afios despues

ioe azgo daria


t--------1 Fae es
cog I . OS Promed10 de escuela secu daria e M aterna··ca,
Factores ayo decision
no Cie d as e I gles
cognitivos A oe,·cac1a · e o de eces q e le o a , atematica

Equipo

otivacio

Fuente: Lin et al. (2009).

El experimento fue hecho con 1508 estudiantes de los cuales 289 eran mujeres y
1219 eran hombres. Los resultados del experimento de los cinco modelos propuestos
demostraron que el metodo de red neuronal produce los mejores resultados de
predicci6n con respecto a los otros tres. De esa manera, se consigui6 una precision
de 71.9 % en el modelo C que usaba variables cognitivas y no cognitivas.

g. Yathongchai et al. (2003) realizaron un estudio en el que se considera que existen


tres factores importantes que afectan la tasa de deserci6n de los estudiantes. Estos
factores son las condiciones relacionadas con los estudiantes antes de su ingreso,
los factores relacionados con los estudiantes durante los perfodos de estudio en
la universidad y, finalmente, todos los factores que incluyen el valor del objetivo a
predecir por el analisis de factores.
El estudio fue llevado a cabo en la Universidad Buri ram Rajabhat, con 731 estudiantes
de los cuales 251 estudiantes desertaron. La informaci6n fue obtenida de diferentes
tablas de la base de datos academica MIS y las variables que se consideraron para el
estudio se muestra en la tabla 2.10.
Tobia 2.10 Variables relacionadas con los estudiantes

Variable Descripd6n Poslbles valores -}il


Pragrama para estudiar en {230, 240, 241, 243,247, 249, 264, 265,284, 285,
Pragrama la facultad de Ciencias 286}

debil, media,
GPA entre el terml-term4 buena, mejar, debil =GPA < 1.6
GPA1-GPA4 {dentro del ana academica media= GPA 1.6 - 1.99
2008- 2009) bueno = GPA 2.0 - 2.5
mejor =GPA> 2.5

GPAX de la educaci6n
GPAX del colegio numero
secundaria
{1, 2, 3} = Ciencia + Matematica
Programa del Programa de estudio en la 2 = Lenguaje + Matematica
Colegio educaci6nsecundaria 3 = otro.
'11111 111 •Ill,_
1ano, grande}
t\o I co 10

bandono

{ . 2. 3, .5.6. o }

0 ~ rc,6n Es do de a ban o o {Si, o}

Fu nte: Ya ong a1 r ol (200 )

Para realizar las pruebas se utiliz6 la tecnica de arboles de decision basada en la


clasificaci6n J48 o C4 .S y NaiveBayes. Como herramienta de desarrollo se utilizo
el software Weka con 513 casos para realizar el entrenamiento y 218 casos para
realizar la validaci6n del modelo, tras lo cual se obtuvieron los resultados que se
muestran en la tabla 2.11.

Tobia 2.11 Comparaci6n de los resultados de dos algoritmos de clasificador sabre todos las factares

J48 Redes bayesianas


0aslftcador Conjunto de Conjunto de Conjunto de Co j unta de
validaci6n pruebas va lidaci6 n pru ebas
Precision 87.00 % 84.86 % 85.08 % 82.11 %
-
0.87
---
TP Ra te 0.849 0.851 0.821
FP Rate 0.073

TN Rate 0.843
0.066

0.831
0.033

0.864
0.033

0.872
--
FNRate 0.851 0.849 0.851 0.821
-----
Fuente: Yathongchai et al. (2003).

Una vez presentado este balance sabre la aplicacio' n d . , d d estudi0


., . . e 1a minena e atos aI
de la deserc1on estud1ant1I en la educaci6n supe . cionar
, . , nor, se puede pasar a men
otras tecnicas y metodos que han sido usados p . , .
ara este m1smo propos1to.
• Regresi6n logfstica (RL): este metodo ha sido . tudios
. . amp 11amente utilizado en loses
educativos para predec1r la retenci6n del estudian ., estad0·
Levin & Wyckoff (1991), Casa (1993) Scha ff te o la graduac1on de ere et
al. (1997) Y Zhang & Richarde (1998), han u:li:~sd~t al. (1997), Beserfi~!d-~;g,scica
para estudiar la permanencia de 1 . modelos de regres1on te,
os estud1antes I . . terrien
Besterfield-Sacre et al. (2002) desa en os coleg1os. Rec1en . ara
rro 11 aron un mod IO d . , I , t,ca p
predecir la permanencia de los estudia t d . e e regres1on ogis d·ante
n es e pnm ~ d . . , me '
el cual la precision obtenida fue de er ano e 1ngenieria, . on el
68 0
estado de la inscripci6n en la ingen·i , ,Bd 1/o. French et al. (2005) estudiardOel
ena espu , d an
modelo de regresi6n logfstica, a partir d es e 6 u 8 semestres, us %de
10 65 que
clasificaci6n correcta. Entre estos estud· e cual reportaron una tasa de
105
sobre la retenci6n de los estudianteS
usan modelos de RL solo Schaeffers et al. (1997) reportaron una tasa de clasificaci6n
correcta en la retenci6n superior al 70 %. Sin embargo, su modelo requiere el uso de
GPA acumulativo (rendimiento) de la universidad coma el factor mas importante para
predecir la persistencia a lo largo de 3 a 5 anosy, por lo tanto, es menos adecuado para
aplicar los principios de dinamica de asesoramiento para estudiantes de primer af\o .
• Analisis discriminante (DA): este es otro metodo utilizado en el analisis de la
retenci6n de los estudiantes universitarios, segun el modelado planteado por varies
investigadores. Pascarella & Terenzini (1983), por ejemplo, estudiaron el retire de los
estudiantes al final del primer af\o mediante el analisis discriminante, y alcanzaron
tasas de clasificaci6n correcta de entre el 77 % al 81 %. Sin embargo, sus factores
fueron recolectados durante el primer ano del estudiante y, par lo tanto, fueron
menos aptos para la intervenci6n temprana. Fuertes & Sedlacek (1994) utilizaron el
analisis discriminante y tomaron en cuenta los factores preuniversitarios, cognitives
y no cognitives para estudiar la retenci6n de los estudiantes universitarios asiaticos.
Se inform6 de un 64 % y el 68 % correcci6n clasificaci6n para el quinto y septimo
semestres de retenci6n. Burtner (2005) estudi6 el estado de inscripci6n despues de
un af\o en el caso de estudiantes de ingenierfa e inform6 una clasificaci6n correcta de
85,2 %. Sin embargo, sus dates se recogieron en la ultima pa rte del segundo se est e
(abril), por lo que tambien su enfoque es menos adecuado para la interve ci6
temprana con los estudiantes de primer ano.
• Modelos de ecuaciones estructurales (SEM): estos tambien han concit ado la a enci6
de los investigadores. Aitken (1982) desarro116 un modelo de ecuaciones estructurales
de satisfacci6n y rendimiento de estudiantes, e inform6 que el 19,4 % de la varianza
en la retenci6n de los estudiantes puede ser explicado por su modelo. Nora e al.
(1990) estudiaron la relaci6n entre la retenci6n y los factores de pre-uni ersitarios e
inform6 de los factores en su modelo SEM represent6 el 15,3 % de la varia za e ta
retenci6n. Cabrera et al. (1993). Tambien utilizan el SEM para modelar la re e ci6
de estudiantes universitarios despues del primer semestre. Se inform6 de u S%
de la varianza observada en la retenci6n puede ser explicado por su modelo, co
los factores mas importantes coma promedios de la universidad despues del pri er
af\o. French et al. (2003) estudiaron la relaci6n entre la matricula en inge ie ·a, con
rango de factores, incluyendo la escuela secundaria, SAT, el GPA de la uni ersidad
la motivaci6n, los profesores y la integraci6n de los estudiantes. Encontraro que su
modelo SEM represent6 el 11 % de la variaci6n observada en la matricula de inge ieria.
• Redes neuronales (NN): este es un enfoque de modelado bien desarrollado ent e
las diferentes herramientas dentro de la comunidad de la inteligencia artificial (I ).
Durante las ultimas decadas ha side ampliamente utilizado en aplicacio es que
involucran tecnicas de predicci6n y clasificaci6n, especialmente, en las areas de
ingenieria, negocios y medicina (Kukar et al., 1999; Smith & Gupta, 2002; Tsoukalas &
Uhrig, 1997). El modelo de red neuronal es especialmente atractivo para el mcxielado
de sistemas complejos, debido a sus propiedades favorables: la capacidad universal
de la funci6n de aproximaci6n, alojamiento de multiples variables no lineales variables
con interacciones desconocidas y la capacidad de generalizaci6n (Coit, Jackson &
Smith, 1998). Mas informaci6n sabre la aplicaci6n de modelos NN para predecir la
retenci6n de estudiantes en ingenieria se puede encontrar en lmbrie et al. (2008).
d llado un m arco de referencia qu id ntif1 ;,
Algunos investigadores h~n esdarro er. a cabo en una etapa tempran Par, (1 Irr..
r nesgo e ca . ,w. I·
estudiantes con ma_yo .
1
tudiantes que la necesita n, dado I aum~ntc j ., _
instituciones den as1stenc1a a d~s etses en ciencia e ingenierfa (« & E»), a,kin (~i<r; I;
I'd d tid d de los estu ian ✓, "y.
ca , a Y can a t fsticas del estudiante, tales come el GPA (rendirni,. 'J
hizo hincapie en que las carac er . . I ,. f .rn,1
, . . bles ambientales como v1v1r en e campu o ucm cJ,. r. 1
academ 1co) y otras van a . :,
participar en la primera programaci6n d~ un aflo y pertenecer _a una orn~mirJ;,0
. • d d' • de v'ida son meJores productores d e ex1to d I tudi:irn,.
res1denc1a 1 e apren 1zaJe , ,..
Lin et al. (2009 ), en una investigaci6n de minerfa de datos e~ torno a 1508 tudi:int~·;
de primer ano de ingenierfa en una universidad del_med10 oeste durante I c:ur·.ri
2004-2005 han usado varios metodos para la retencr6n d e m od elado de stwfoin ':
de primer 'ano de ingenierfa, tales como redes neuronales, ana l_isis di.,criminari ~.
regresi6n logistica y modelos de ecuaciones estructurales. El estud,o agr g6 el orig~r,
etnico, el genera y la ciudadania como factores influyentes, pero lo s resultados fur.iro 1
inconsistentes entre todas las instituciones incluidas.
En Tailandia, los investigadores estaban interesados en la aplicaci6n de las dato)
metodos de extracci6n para predecir el rendirniento estudiantil. En su inv stigaci6n,
Nghe et al. (2007) compararon la precision del arbol de decision y de los algoritmo!
bayesianos para predecir la red tanto de pregrado y el rendimi ento academico de loi
estudiantes de posgrado de dos instituciones diferentes.

En el trabajo de Mendez (2008) los datos utilizados fueron de 1884 estudiantes de


primer afio que se especializaron en la ciencia, tecnologia, ingeni er ia y maternatica
(STEM). En ese caso, la data fue recogida de los alum nos inscritos en el ano academico
1999-2000. El estudio se centr6 en 6 de las 18 variables d isponibles y ellos fuero
genera, etnia, nacionalidad, prornedio acadernico de secundaria, SAT cuantitativa yel
SAT verbal.

En el caso de Ayesha et al. (2010) se utiliza la tecnica de minerfa de datos llamado


«K-m~ans», un clustering ~ara analizar el comportamiento de aprendizaje de 1~1
st
e udi~nte~ Y ~~yo ~so busco ayudar a los profesores a reduci r la deserci6n en relacion
a un nivel s1gn1ficativo y mejorar el desernpe~ d .
no e 1os estud1antes.
Sembiring et al. (2011) aplicaron el rnetodo d k , . ineria
de datos apropiada para . e I ernel como la tecnica de rn
ana 11zar 1as relacio . de 101
estudiantes y su exito Lueg d nes entre el comportam 1ento
de los estudiantes par~ pred~c· es :rr_o llaron el modelo de predictores de rendirnient:
ire 1t:Xlto de estos rn d . I d factore
psicometricos como de pred·ict . e 1ante e empleo ta nto e
ores variables .
Wu et al. (2010) optaron por la te . . a la
informaci6n de los estudiantes d cnica de rn1neria de datos y la aplicaron on
el metodo basado en los algo ~~ar ada en el alrnacen de ba se de datos. Ellos usarso
revelaron que el algoritrno de~, brnol s de arbol de decision y los res ultados del cauir
dr o de de · '6 d' ting
entre los meritos del nivel d I c1s1 n de rnineria de datos puede is ·on
de la clasificaci6n general y e os_ ~studiantes universitarios realiza r la evaJuaCd'os
t d' . perrn1tir asi I I etO
ra ,c1onales no sean aptos I reso ver el problema de que /os rn
para a evaluaci6n de los alumnos.
1. Los modelos de minerfa de datos se pueden clasificar en predictivos y descriptivos.
En el caso de las predictivos, se tiene una variable en donde el valor es desconocido y
la finalidad es determinarlo. Esta variable se llama respuesta, variable dependiente u
objetivo, mientras que aquellas utilizadas para hacer la prediccion son los predictores
o variables independientes. En relaci6n a los modelos descriptivos, en ellos no se
cuenta con un resultado conocido para poder guiar a los algoritmos. Por eso, se
habla de modelos de aprendizaje no supervisado, donde el modelo se va ajustando
de acuerdo a las observaciones o datos entregados, y se recurre muchas veces a
argumentos heurfsticos para evaluar la calidad de los resultados. Algunos algoritmos
que se utilizan en estos modelos son los de clustering y los de reglas de asociaci6n.

00
XI

2. Existen muches metodos de minerfa de datos. En este capftulo se estudian los arboles
de decision y las redes neuronales por ser los mas usados para la solucion de problemas
de clasificacion. El arbol de decision permite encontrar la variable independiente que
puede hacer que, de manera sucesiva, una decision hecha a partir de los datos divida
el grupo original en pares de subgrupos en la variable dependiente. Es importante
tener en cuenta que, a diferencia de la regresi6n que devuelve un subconjunto de las
variables, los arboles de clasificaci6n pueden clasificar los factores que afectan a la
tasa de retenci6n .
.
. n I que respec a
t a las redes neuronales, estas . ,
tratan de imitar a las
. neu, 0,
inten:: ne tadas que hay en los cerebros de los an,ma 1es con el fin de hacer 13;
ale ri tm ea ca pa z de realizar el aprendizaje complejo para la extracci6n de Paqt u~ .1
B ' Dr1n,
te tar t ndencia s. ,)

4. La miner a de datos ha venido siendo aplicada en diferentes areas para resolver ur


abanico de diversos problemas con buenos resultados obtenidos al dfa de hoy. En l3
tabla siguiente se resumen algunas de estas areas de aplicaci6n 3 .

Problema
• ldentificar patrones de comp ra de los cli entes
• Buscar asociaciones entre client es y caract eris i cas demoorahca:,
C merc:io v marketing
• Predecir respuesta a campanas de e-mailing
• Analizar de la canasta de compra

• Detectar pat ron es de uso fra udulento d taq e u'> de er · d1 o


• ldentiticar a clientes lea les
Banca • Predecir clientes con probabi lid ad de camb1a r su ahl1ac 16n
• Deter inar gasto en tarjeta de credito por grupos
• Encontrar correlaciones entre indicadores fi nanc1• os
• I
e ·ncar reglas de merca do de valores a par rd da o~

,,.
0 ri,
< p://v '1 uc3m ; · I d nt0
' eria de d . es Jv1 lena/ irc/practicas/06-07/22 .pdf S" p Uf' iJC' ,
a OS. lo misrn O , //a 1c ive ,r.s
ade as es pos1ble en la direcc1on <h
· • a ase de da·ot s con a cual hacer pruebas.
1
/
Capftulo 2: Tttnl a Y apU a 160 d 1 min "' d d to

Area de aplicad6n
Problama
• Ana l1zar los procedirn1 ent s 111e'd·1co O I1
·c-1ta1jo
J c I,I untJIn 'ntc
Seguros y salud • Predecir que cl iente ompran nueva µoli J
privada
• ldentifica r patrones de comport,1mient pJra cli nt 11 ri -
• ldentifica r coinporta mi nt fr udul ~nt

Transportes • Determinar la pla nificaci6n de I distribuci 11 entI t' ti 'll (°Ll


• Anali za r patrone d carna

Medicina • ldentificar t erapias m ' di a satisfa t ria par3 dif r 111


• Asociar sfntomas y cla ifi ca ion difer n i I p t I Id~

• Ext raer modelos sabre comportam iento de comp ue t


Procesos industriales • Det ectar piezas con t rabas
• Predecir fa llos

5. La mineria de datos en educaci6n es una disciplina que esta sien do desarrollada n


la actualidad de manera exhaustiva con el fin de crear metodos para explora r l_os
tipos (micas de datos provenientes de los centros educativos, col egios, institutos y
universidades, y usar esos metodos para entender mejor a las estudiantes. Se han
hecho trabajos de investigaci6n y modelos para predecir la deserci6n de estudiantes
universitarios mediante el empleo de diversas tecn icas como la regresi6n logistica, el
analisis discriminante, las redes neuronales, las arboles de decision y otras mas que
tambien son nombradas en este capitulo.

Collects and use


EDUCATIONAL
INF.SYSTEMS
ITS, AEH, TEL, LMS
L...-..------,1
I
enroll (to courses).
EDMTASKS use (learning) res urc s.
EDUCAT. DATA
Student profiling, pass tests, collab rat
Learning objects,
1+---~ knowledge modeling, (with other tud ents),
event logs (usage,
interaction), grades, drop out prediction
learner profiles

DISCOVERED
f - - -~ LEARNERS
EDUCATORS KNOWLEDGE
Pupils,
Teachers, Descriptive (process)
students,
study advisers, models, {learning) professionals,
directors of patterns, outliers,
patients
education, (perform ance)
education researchers predictions, advices and
recommendations
s

=. . c _2 a - c - _ ,. a --e era c..a es soas caracteristicas ae la


~e.......... e, e es ecia , a e a capaci a de poaer
- ,. e ase e a os para la ob enci6n de los
s a -ra 1es e las ·re e es ecnicas con que
~ e - c1 2 e~--a e :a a ·es

s , e e . ,. oo , :e e--co oci ie,.., o e la aplicaci6n de la mineria


e ~e . ·e e ac·e o e sectores como la administraci6n
.1e i i g, a creaci6n de farmacos, el desarrollo de la
o a
s eas e i e ·gaci6 .

Contenido
3. SPSS Clementine
3.1.1 Sector publico
3.1.2 CR
3.1.3 Web mining
3.1.4 Desarrollo de farmacos
Capft:ulo 3: PresentaclOn general de SPSS Clementine

3.1 SPSS Clementine


Tai como sef\ala L6pez (2007), SPSS Clementine puede ser descrito coma una herramienta
de minerfa de datos que incluye diversas fuente de datos {ASCII, XLS, ODBC, etc.), una
interfaz visual basada en procesos de datos, distintas herramientas de minerfa de datos
(correlaci6n, reglas de asociaci6n, regresi6n, segmentaci6n, clasificaci6n, redes neuronales,
reglas y arboles de decision, etc.), manipulaci6n de datos, combinaci6n de modelos,
visualizaci6n de datos, exportaci6n de modelos a distintos lenguajes {C, SPSS, SAS),
exportaci6n de datos integrada a otros programas (XLS) y generaci6n de informes. A
partir de estas caracterfsticas, Clementine ofrece un enfoque estrategico que permite
encontrar relaciones utiles en grandes conjuntos de informaci6n.

La gran ventaja que implica el uso de Clementine es que, al contrario de las metodos
estadfsticos mas tradicionales, no necesariamente se tiene que saber lo que se busca.
Esto pasa por el hecho de que con este programa el usuario puede explorar sus datos,
encajando diferentes modelos e investigando diferentes relaciones, hasta por fin
encontrar alguna informaci6n que sea util.

En minerfa de datos, y con la ayuda de la herramienta SPSS Clementine, es posible


resolver problemas concernientes a diversos ambitos. Algunos de ellos, son nombrados
y comentados en seguida .

3.1.1 Sector publico


Los gobiernos de todo el mundo usan minerfa de datos para explorar los almacenes de
datos masivos, mejorar las relaciones con las ciudadanos, detectar las casos de fraude,
identificar acciones de lavado de dinero y evasion fiscal, detectar patrones delictivos
y terroristas, y mejorar los servicios ofrecidos par el dominio creciente del gobierno
electr6nico. En la siguiente figura se puede observar un ejemplo de aplicaci6n de
minerfa de datos, en este caso, orientado a la detecci6n de un fraude (vease en el
rectangulo la detecci6n del fraude).

500,000

QJ 400,000
::,
ro
>
.§ 300,000
ro
u
-0
(1.1 200,000
_1;;
-0
(1.1
....
a.. 100,000

0 100,000 200,000 300,000 400,000 500,000


Actual Claim Value

. Figura 3.1 Caso de detecci6n de fraude con la ayuda de SPSS Clementine


Fuente: tutorial de SPSS Clementine.
Data mining - Minerla de datos
l
3.1.2 CRM
La CRM o la gesti6n de las relaciones con los clientes (del ingles costumer re/ati
. I .fi . , . t 1· onsh,
management) puede mejorarse grac,as a la c as, cac,on in e 1gente de tip P
. ( , . d 1· t os de
cl,entes y predicciones precisas de churn rate metnca e, c. 1en Ies que abandona nUna
empresa). A partir de esto, Clementine ha ayu d ado con ex1to a as empresas a atr
retener a los clientes mas valiosos en una variedad de industrias. En la siguiente naeryr
'I' · Cl ti' I gu a
s~ puede observar, como resultado de I ana 1s1s co~ emen_ ne, e porcentaje de
cllentes actives de una empresa ordenado por la cantidad de dinero que estos gastan

Top 1%

Big 5%

Medium 20%

Small 80%

Inactive

Customer Value Pyramid

Figura 3.2 Clientes activos ordenados par cantidad de dinero


Fuente: tutorial de SPSS Clementine.

3.1.3 Web mining


Con secuencias
. poderosas
. y algoritmos de pred·1cc1on,
., Cl ementine
. co nri·ene las
herram1entas
•· b ( , necesanas
fi para descubrir exactame nt e 1o que 1os c1.1entes hacen en .unn
10
s1tiowe vease 1a gura3.3)yentregarasfexacta men t e Ios pro ductos o 1a ,n· forrnac
que estos
. , desean. Desde la preparaci6n de datos hasta eI modelado, to do el proces
de minena de datos se puede maneJ·ar dentro de Cl ementine.
.
65

00

2, 00

,0()0

',0() -c::, l ,'>00


0
u
4,00[)
1,000
'>00

cg 2,000 SQQ
u
l 500 0
0 100 200 300 400
Order amount
1.000

500

0
5 10 15 20 25
Visi t actions

Figura 3.3 Medicion de la cantidad de vistas en una pagina web


Fuente: tutorial de SPSS Clementine.

3.1.4 Desarrollo de farmacos


La minerfa de datos ayuda tanto en la investigaci6n fa rmaceutica coma genetica
mediante el analisis de los grandes almacenes de datos que resultan de una mayor
automatizaci6n de laboratorio. Los modelos de conglomerado y clasificaci6n ayudan
a generar oportunidades de bibliotecas de compuestos, mientras que la detecci6n de
secuencia ayuda al descubrimiento de patrones.

Average error vs. genes per class


35
6. 6.
30
6.
.-
6.
I
~ 25
':1
0
6.1. ':,.
L..
L.. 6.
w 20

6.
15 D,,,

~
10
5 10 15 20
0
Genes_Class

Figura 3.4 Promedio de error versus clases par genes


Fuente: tutorial de SPSS Clementine.
,
1. La herramienta SPSS Clementine tiene la capacidad de conectarse con cualquier n1ot
de base de datos (ASCII, XLS, Oracle, etc.) a traves de la int~rfa~ ODBC (siglas dei in~~
open data base conectivity o 'conexi6n de base de datos abierta ),
2. Existen muchas herramientas de mineria de datos tales como SQL Server, Oracle, Oran~
R, Matlab, etc., pero ninguna de ellas ha llegado a madurar de manera completa co
lo ha hecho SPSS Clementine.
3. A diferencia de otros programas como SQL Server u Oracle, SPSS Clementine incorpor,
entre sus nodos la posibilidad de hacer metodos hibridos (combinaciones) coma s acki
y cascading, que ayudan a tener mejores resultados si las tecnicas se trabajan de a ~
independiente en los proyectos de investigaci6n.
4. SPSS Clementine ha sido utilizado en la soluci6n de problemas como el proce
evaluaci6n fiscal par parte del sector publico, el manejo de CRM para atraer rete
clientes, el trabajo de web mining para descubrir lo que los clientes hacen en las ag o:
web, la generaci6n de biofarmacos en la industria farmaceutica y el establecimie ·
bibliotecas de compuestos en el campo de la bioinformatica.
lnterfaz y categorias de
SPSS Clementine

Objetivos

En este capftulo el lector conocera las principa les partes que conforman
el entorno del software SPSS Clementine. A partir de esto, podra trabaj ar
y desarrollar proyectos en este programa, de manera facil y sencilla.
Tambien conocera los nodos mas usados que se encuentran en cada
una de las categorfas y subcategorias, los cuales le permitiran armar el
proyecto como si se tratara de construir un fl ujograma.

Contenido
4.1 Elementos de la interfaz de SPSS Clementine
4.1.1 Clementine Stream Canvas
4.1.2 Nodos Palette
4.1.3 Clementine Managers
4.1.4 Clementine Proyects
4.1 Categorfas de SPSS Clementine
4.2.1 Categoria Source
4.2.2 Categorfa Record Ops
4.2.3 Categoria Field Ops
4.2.4 Categorfa Output
4 .2.5 Categorfa Graphs
4.2.6 Categoria Modeling
4.2.7 Categorfa Export
/
apitulo 4: Int r fa l categoria de PS Clementine
69

4.1 Elem nt d Ja int rf z l SPSS Cl m ntine


En la presente figur s mu stra la interfaz principa l del software SPSS Clementine .

CR18P-011 Claosea
e ~11Jn11V1<1proj1C1)
""' IMllett u...a-,g
W D11.a Understandmg
~ Dltl PtOpirwt!Dn
i.. 110<11tng
;or E,aturlion
~ DtP'D!fflfnl

• 9cut1• t Flt<\IRI Oi>• ~• • O!IPl>1 • Woo1•inv I ■ CMout I E,po,1

~ ~ I~ ~ ~,JD ~.I.~.~. ~ ~- ~' ~ .~..~


, ~~lt&.~M
Figura 4.1 Pantalla principal

Ahora se va a describir cada una de las partes de esta maravillosa herramienta. Entre
ellas se encuentra:

4.1.1 Clementine Stream Canvas


Esta es la mayor area de la ventana de Clementine (vease la figura 4.2) . Es, ademas, el
espacio donde se construyen y se manipulan los flujos de datos.

CRISP-OM C1HSIS
IWldp~
....... ta. . . . • •
DIII\.\Nlll..,Mllig
DIii PrlplfllOn
!Ioele~
EwludOn
011110!ffl8111

e 01!111111 1110d1lng ■ Ou1)J\ ■ EllllOrt


FIM>llllt • Sou~H • ReconlOl)I ® @, ~
• fltld 01)1 4 O,_,hs • II0dtllng
~

la\ lf.i\
@ ~ @@@I®® _ I~~~.!~-··---~_,.. ~
_ . . , . . ,®
- .,..... - ....... ,.._.- - - - - - - - - - -- ►
- TOIIB/8019

Figura 4.2 Clementine St ream Canvas


\ d · P.d,·1I c
l. d,11, ,., l,l', ht•11111111, 111.i•, d1, rm rkl.id l'll I m · n b ne residen en
1

qllt' t' uh11,11•11 l.11r11l1 1 11111 1 1101 d1 • 11 V'n l,rna d Clementiney


hl IJ ) h•I h 't ll I dt• I \ILl'>.

CAA 1,u .. .,_,

7011 18111B

4. 1.3 ktn 'ntim.· !lanagcT~


S pu d utiliz r la fi h Str ams para brir, renombrar, guardai y eliminar las
corn nt er dc;1 n una s ion (v la fi ura '1 .4).

~ dru plot
:,•. drugl am
~ fta11d
• ~. drugr port
1-- ~ •- -· .. - ., --- -~-"'7
◄ ►
I m •11 II • /I

111t1 '11 llll 1 VcH I ·cl,HI d , n hivo•,


1 1 • i slr< WI! n lc·rn ·111111c . '•<·
11.11 I 1 t 11>11,, I r,dl(O, inform(",

rd

om v I lmv tu
tin
rn of I 1rn 1ft

F, urJ 4. J\1cl11v d I tr c,1111 t•n Cl ,,rn 11l111 •

L p t n M d Is (v · fi ur tl . ) s I m s pod rosa de las fichas del


dmini trador. Est conti n todo los nuggets d modelos, los cuales son los
m lo en rados en Cl m ntin p rten ci nt s a la sesi6n actual. Estos
modelos s pu den consult r dir ctam nt desd la ficha Models o anadirse al

tr ams in th c nv

outputs

Drug
ol1lmv tu
...
l
\
t I
Drug i


1
Fi ura 4. r' tJ f\, Moci
/'J. D ta mining - Mtnerfa de datos

4.1.4 kmcntinc Proy ct


Est opcion s encuentra en la parte inferior de~~cha de la ventana ?e Clementine
. nta de proyectos la cual se utiliza para crear y gestionar proye t · Se
trata d Ia herram,e ' cos d
. , d d t Hay dos formas de ver las proyectos que se crean en Clementine U e
m,nen e os. · nae
en I vista de Classes Yla otra es en la vista CRISP-OM, ta 1coma se muestra en la figura4 s
.7.

*''

ISP-OM Clines
- --
(uni d Plll!IC1)
ORUOln IIIISINss UrldlNtlld,g
-> 0 I Undtll
Oa Prepa"' on
WOdehng
Evalul n
Oep1oymtn1

Patient Records

fm,rllea e Sourcts • Rtco'm Ops - • Fleld Ops j, Ortphs • Modeling • Database Modllng ■ Outilut ■ EJP0<1

®®@@® J®®®~ £~@; ~


D..... Val lllt ...... l,Mlftt ........... OtM Ty,t r11tt, P'Mt Dtltll~II Mi.ftlogra,a N•ll'•I Ntt l(o o · ~ COO CM TN• ~ .,,

701118111MB

Figura 4.7 Clementine Proyects

La pestana CRISP-DM ofrece una forma


de organizar las proyectos de acuerdo t _j (unsaved project)
con el CRISP-OM (del ingles cross- _j Business Understanding
industry standard process for data 4P _j Data Understanding
~ drug.str
mining), una metodologia probada ~ Distribution of name.cou 20018,o
en el sector. Tanto para las mineros IQ Patient Rerords (8 fields,
de datos con experiencia coma para (i) _j Data Preparation
aquellos que afrontan su primera vez [g] drugplot.str cia1rntJll1
~ Web of [region malncroP
la funci6n CRISP-OM resultara de gra~ cp _j Modeling
ayuda para organizar y comunicar ~ druglearn str

sus esfuerzos de la mejor manera, tal Drug gm


cp _j Evaluation
coma se muestra en la figura 4 _8 _ fill drugreportstr
E>- __J Deployment

Figura 4.8 Pest ana CRISP DM


l 1ntulo 1: hHt>1 t.i:,: ,lit\,< , 1J d r\ lementlnc 73

La p stZJn Cl (hgur
p, opor ,on,1 un i form 1 cl ' or 1 m11ar
I tr bJI n I mcnt1n, d mc1n ra
dl ori ,1 y s gun lo tipos de obj tos
qu er an. f st pun lo de vista es
ut1I p r tomar inv nt rio de los datos,
tr oms y mod los .
Dtu gm
T 1hles, Graphs & Reports
~ Dlslrtbuhon of name.cou
"-' Web or (region malncrop clalmtype
If;, Paller1I Records (8 fields, 200 reco
Other
D Oat considerations doc
◄ ►

Figura 4.9 Archivos de la pestafia Classes

4.2 at ria d SPSS Cl 1n ntin


Las categorfas presentes en el programa SPSS Clementine son siete, todas las cuales
pueden ser descritas de la siguiente manera:

a. Sources: en esta categorfa se encuentran todos los nodos que permitiran conectar con
los datos como archives de texto, archivos de Excel, archivos de Microsoft Access, etc.

fJ Favorites • Record Ops • Field Ops A Graphs • Modeling ■ Output ■ Export

EntuprlH View O•l•bue V•r. FIie Foxed FIie SPSS FIie


®
Dimension, SAS FIie Exo•I User Input

Figura 4.10 Sources

b. Record Ops: en esta categorfa se encuentran todos los nodos que permitiran
seleccionar y manipular los datos de los registros de las fuentes conectadas.

fJ Favorites • Sources 11e Record Ops 11 • Field Ops 1 A Graphs 1• Modeling I ■ Output ■ Export

@@@@@ ®®®®
Seleot S•mple B•l•noe Aggreg•I• RFM Agg1eg•le Sort M11ge Append Distinct

Figura 4.11 Record Ops

c. Field Ops: en esta categorfa se encuentran todos los nodes que permitiran manipular
las columnas (campos).
e Modollng ■ Output ■ E'<Jlon

Figura 4.12 Field Ops


d.Gr ph : n orl h"y I, op i6n d r liz r u lq1d r 11p d

r, urJ . z r,1ph

.Mod lin n esta c t god s po lbl obs rv rt d lo r o I ln'd lll I-HI rl , 11 IAI
P S Cl m ntin
-

• Record Ope J..,111111


--~---

l&"a,y Cl....-11 N,nfttrl• lltt•ll•t•1 l1m1 llflH C6A f1t1

Fisura 4.14 Mod ling

f. Output: en esta categorfa estan lncluldos todos los n dos qt~ v yudi.11 a 1IJI IIHI
1 ,
los resultados de los modelos construidos, asf coma ri h, .r I ,n/11,1•,d I J,dr1I1,~y
algunas auditorias a los datos.

!!2 F _11_..__• Sourt • • Record Ops I Field Ops 4 Gr ptrs • Mmlellna

Figura 4.15 Output

g. Export: en esta categorfa los nodos van a permltir podr>r xporl , r I ,, do111i•. 1ililf'111d11~
hacia otras fuentes de datos.

fJlllfllil L 111111

f i1 ril• I'S £.,y.o,t O me Uf

Figura 4.16 Export

Una vez definidas las categorfas, ahora s v pa,, r , d '',er IIJII lo•. 111 " 1, i . 111,.. 11 ,.1il1 1•. 1•1 1
cada una de las categorfas del SPSS Cl m _ntin .

4 .2.1 Categorta Sour

Nodo O rip,16n

@ Perm leer da os de heh ·rris d t"'>'I J r, 111


1
por r g1c; ro pPro un numr•ro 1110 dr• r. 11 ,q 1r,.
1- •11,.,,
.,
1I IHI 1 lllld 1, iJ1• f 11 11 I I
111 ,1,I,

Elnodod b.,sr•dP da os~F-pur-rfo1i1111,11r,,,,r ,1111q,1,r 11-1 1 rl,1 ,, rl, 1111 1\/111,,t ill• ii

®
,11
paquet !> mr>dnn f: OOBr (OfJF- fl duu1 /Jo sp r 1 1 1 '" 1 , fl
Ser , -r, DBl. Orr1cli• 'I oir ,'. "', ,,, IVII VJ. 11,, 111,, "' 1i, 1
/
l ,lpilulu l: lnh•1l.1 ✓ \ l ,lh'~lll 1.,s tit• SPSS 1 'h,11w11thw I',

Nodo D scrlpdon

[I 11 tfo ·r,s h.'l' I ~ d,,t )s dl'I IL ,m;-itl) dt' ,11d11vo \,\'v utili ..1do f.1(>1 \P5'i .1~1 co111o
,lr htv s d' cich ll.11 lid s 1..'n l ll'Dlt'ntmt' qm t,1mb1t n ut1iil t'll t'l 1111 mo !or n1<1to.

El nodo · irnpo, t,1 d,lt s .f\S t'n lt•nwntlrh',

U nod"' E 'I Imp rt 11np rt i d..ito!-o dt sdt' ru,1lqu1l'1 vt>rstL~ll dl' M1t 10 oil I c1•I. No •s
n t: s,111,1 un 1 TUt'ntt' de ct lt "'· OflR(

-
®
[I nodo Us r Import pr opo, ·1011,1 un,1 rn,Hlt'r ,1 t,1c1I dt' tr t',ll d,1tns, y,1 :,t\1 s1nlt'l1c,1 cksdt'
4 cero o lill'di,rnt la ,1lll't ,11.. 1on dt los d,1tos 0 t5lt'fllt'~. Lsto t's ut1I, po, L'Jt'rnplo, rn,rndo

--------
@)
se de ·1.:J crc-.11 un conjunto dl' d,1to. de pruL'b I p,11,1 1'1 modl•l,1do

El n dl) Ent 'rp, i e Vtt w 1t',l un 1 l'011t' 11m con un f't t'tiit tivc I ntl'r p1 l!-<t' R1.?pt1 1tmy, qui'
it, Pt rmit1: I 0r d,lt s de E.ntu pr I L' View 011 u11.1 ,r,, am v t rnp,1qu ,1,1r un rno1h>lo 1•n un
scenari qut.: pufde. l'r ,1 cedtLfo dt>s it ,1 It'PO ttL, i por otros usu,1rios

Fuente: el autor.

4.2.2 at oria R c rd p
Tobia .J,_ Nodos d In catcgorla Rl' ord Op·

Nodo D scripcion

El nodo Selec 1onJr pe, mitt' '5CO ,L'I o dt'Sl 11 t,11 un sub on1u11t tk 11' ,1st ro, dl•I tlujo
de datos, ba·ado n una cond1r1on ' Pt'Cthc,1 l'or l'll'mplo, l's Pt''itblc s 'lctc1on,1r lo
r gi tro. qu pt.:1 lt'llt' ,rn :i tlfl,l ll' 10n cit• Vt 111,1 l'n pJ111 ul,11.

El nodo Mwstre,1r selccc1or1,1 un ·ubconiunto dt• It' btro, Un.is V,1f ll'd,ldL'" de tipos
de muestras son comp;:it1bl ·• tncluyl,ndo t'Slr,1t1h ,1do, .1p,r upJdo, y mut str,1<. no
aleatonas ( structur;-idos). El mueslrt'O PUt'dt' 1..'1 ut1I p,11,1 nw1or,11 l'I rt'nd1m1 •ntoy p,H,1
seleccionar grupos ct' 10 1 t1 o.:. r1'l,K1on,llfo" o tr ,1ns,1eriont's p,1r 1 •I ,rn.ilis1s,

r I nodo Equilibr ,H t:01 rI I' los dt'St'qu1hb1 il1s t'n un rtmjunto dt• d,110., y ,11u l,1 l,1 p1 opt11 1011
d rt'gist , as 'n los qUt' un,1 t: ndinon i's lit rd,1dt•1,1 ,1 p.ir 11r dt• t111 l,H:llll t' i t'c 111 1do

El nodo Agrt'ij,ll lt'l mµl,11,1 un,1 St'Cllt'llCl,l dt• It' tstros dt• l'fllr,1d,1 ton r1•g1'>trm de s,1hd,1
Jgr Rados y rL'Sumidos.

[I nodo Ordl'n,11 01dt'Jl,l lt'Ki,tr11 1 11 pl,111 ,1sc 1•11d1•11t1 t' d1•~c 1 r1th 11!1• i 11 ltm11on cit' lo
1

v,1lort''> dt• um> t1 111,1s t ,1111pt1

Fl nodo f-undil tom.i v,H ins , 1'Rhtr m dt' ,•ntr ,1d,1 y < r1',I llfl 11't1i~t ro d1• .,,,ltd,1 u111c ,1 ql1<'
rontll'IW todo · n ,1lt1t11ws cit• los l.llllPl''> cit• 1•11tr,1d,1 I., ut1I p,11,1 I., lu"t)fl dt• d,110., di'
difpicnll''- fllt'tllt'S torno lus d,ll s dt• lo, tlit'llh" tnh•rnos y ltl\ d.1tns d1•rnogr.1hrlh

fl nodo 1) 1.,1 11 1!\Ulf 1•1im1n.1 11•~i tro, d11plir,1dt1, y1 w;i 1prob.mdo ,·I prrm, r tt'Rt•t11
dbtrnhi ,11 ,tr,·11111 dt• rl,1ll1 1 dt• 1,11 t,mdo t•I p, 1t111•1 rt•~1,tr11 y p.1'>.mdo r 11,1lq1111•1
duplit .id ,1 l.1 1ut,, dt• d,1111. t'fl lug,11

11 nodo Ar),iciii l 11H-.1t1•n 1 10111u11w-. ck 11•n1,t111-. I~ 11111


® d.it<.'~ nm -;t1uctur,l'- \imtl,111•,, p1•10 tL)fl dit1'11•11tt''> d.1111•,
p.11.i t 1\11111111,11 u11111111tn di'

Fuente: 11 1tlUIOI
l n~ l i l l l l
ta/)/11 4 lo J d, 1.,

lo·, arnpo, / rna ea lo~

nIun10 nn hin,1 do· c) rn,h rnod"lo·, p,ir tJ obtr•n ,r pron6 cos mas ecisos ae
1 pul d1 11 l)b\t'!H r d c u,1lqu11 •r modelo.

di i 1 I !i v;)lor d dJto o crn ampos nu vos desde uno o mas campos


mpo d tipo 16rmul , m re , con]unto, estado, cuenta, y condicional.

® r un c mpo d p rlicl6n, qu divide los datos en subgrupos separados


pr u b s y I tap d validacl6n de la construcci6n de modelos.

®
@
Fuente: el autor.

4.2.4 at

Tnbln •I. N d d I, i'lt or( Outpu

Nodo
·b r en
mbicn puedcn escn 1

0
ionc:1r las vdl r dt' dalo5
phoo 1£'mentine 77

SPSS p.ira anal,zar


nolincos SPSS esta

,ll ·. • ,1 l.l ( ''"·'I h . .


l lCJ 4 N do~ d IJ c t oria Graphs

D scrlpcl6n

m • n contrapos,c16n a los valores de un


p nd n a una variable depend1ente y a una

r ma r lUe tta la ocurrenc1a de valores para los campos numericos


t ut,lr ·a pa, a e plorar los datos antes de las manipulaciones y la
1 n d n d las. imilar al nodo de distribuc16n, los nodos de histograma se
Ul nc1,1 para revelar los desequ1hbnos en las datos. Aunque tamb1en se
In do Tablero para produc,r un histograma, hay mas opc1ones para elegir

b 1nd1 a l,1 intensidad de las relac,ones entre los valores de dos o mas campos
10,h Ir o ll r hco muestra las cone tones utilizando diferentes tipos de lineas para
11 1 , I fu r a dl' cone ,on Puede utiltzar un nodo Web, por ejemplo, para explorar la
rt I , n 111tr I cornpra de diversos articulos en un sitio de comercio electr6nico o un
d, L nta tr ad1c1onal.

P r1 111p p , n11tc vcr uno o mcis graficos de senes sobre el tiempo. Las senes
nu b I nl! 11 r w,lotL'S nurnencos y se supone que trabaJan baJo el supuesto
Tf,.,, r1,1 l lll I J lo p r 1odos de t1ernpo 5ean uniformes

f nl
4 2.6 at rt,l tnd ·hn 1

Nodo
o rip I n
I d1' d1'll',l()fl ljllt p1 1 (lllllf' p11•tl1•tl1 ll 11,1•,1111 I
di •I\
1111 111 .1 p 11111 t llll"• lt'l lll',IVcl', p,11,1 d1v1tl11 111•, 11 ,1l',lru
111111111 11 rn lu I 1•, I11111tI11 !,1•, 1•11 1 .1d.1 fhl o y 1, 111 I
l lft)I
dt• In 1,1•, h c•ll 1•I lllHhi tOtl1",11111111t , 11
,1 un,1

El nodo Factor/PCA prov e pot nt t cnicas d r ducc1on dl' di"ll oc; p,11 .i rPch1c11 I~
compl jidad de los datos. El n lisis d cornpon nt s ptln 1p,11t, (P A) 1 tH LIL'nt,a la\
combinac,ones lineales de las campos d nt, ada qu hue n rl mt ior t,, b, Jo dt' captura,
la varianza en todo el conjunto de campo , n I cu.:il los compon nt , son 01 top,onal~s
(perpendiculares) entre si.
El nodo means agrupa el conjunto d d to n , upo d1 l1nto~ (o lu,tm's) ll
me ado define un numero fijo de conglom rados, d form, It r<1t1v,1 .1 IgIi.1 rt->glstros
a los conglomerados y ajusta lo centres d los conglom r.icios hJ-.l I q1J1' u11 I111rvo
refinamiento ya no pu dam jorar el modclo. En lug rd trata1 d µ1t'dt'111 w, 11•~11I1ado,
K-means utiliza un proceso conocido coma «apr ndizaj no supc, v1,;.1do>1 1 11.1 c!L-mibrn
patrones en el conjunto de campos de entrada.
El nodo Regla de inducci6n (GRI) encuentra reglas de asociaci6n n los d 1tos Po, rwmplo,
las clientes que compran maquinas de afeitar y locl6n p ra d spu · d I ,1 fcit,1do t,11nll16n
son propensos a comprar crema de afeitar. GRI extrae reglas con I cont nido 1nfo1 ni,1uvo
mas alto en base a un fndice que toma tanto la gencralidad (sopor t ) y la p1Pc1~ion
(confianza) de reglas en cuenta. GRI puede manejar entradas nu mer i ,1 y 1,1t1'1v1rIc,11,
pero el objetivo debe ser categ6rico.

El nodo de red neuronal utiliza un modelo simplificado d la m, ma tomi.1 ,,n quP rl


cerebra humano procesa la informaci6n. Funcion m diant 1,1 5 1rnul,H I( n dt' 1111 ~"111
-
numer~ de unidades de procesamiento simples int rcon ct,,d,is qtH' ~t' ,1. t'llll'i 111 ~~
las v~rs,ones abstractas de neuronas. Las red es neuronc1I s on stimado, l'~ potL'llll'S
func1ones gen~rales y requieren un conocimiento matematico O cst,idistico 111111IIllt1 P11 '1
entrenar o apltcar.

El n~do CS.O gen:ra un arbol de decision o un conjunto d r glc1s. El rnodrlo ft111r101;•;


m:d_,ante el fracc1onamiento de la muestra y basandose en el carn po qw prupo1tIon,1'
maxima ganancia de informaci6n en cada nivel. El campo obj tivo ci b ser c,1\t'f\l)~o
El nodo de selecci6n muestra I0 --:
s campos de predicci6n para la liminJ 1011 Lr 1 1,' 1i,1s,1dO
t 1
el n_ un conJu~to de criterios (como el porcentaje de valor s p rdidos) I ntonn's, d,1\11 ,
a 1mportanc1a de los predi t · ·
c ores restantes relatives a un d tino sp c.1fir,1do
El analisis discriminante I' h' . . - 1 pt'10
1
puede ser una valiosa l~ea iza_ ipotes1s mas estrictas qu I r gr ion lor,1s, 1:1~1•,t1<•'
a ernativa o complemento a un na il Is d I g, t'~ I011
cuan do se cumplen estos supuestos. •-
. . IogIstica
La regresIon . es una t , . . . ,do~ t ,," I,"
valores de las campos de 5t
ec~ica e ad1stica p ra clc1sificar lo rcgIst1us b,i · n ,111111°
11
objetivo categ6nco en lug!ndtra a. Es analoga a lu re r sI6n l11w ;.1I, p '' o toll1• 1
r e un r ango num . rlco.
/
,tp tul I',

u nte: I au

4.2.7 ate na port


Tobia 4.7 Nodos de la categoria Export

Nodo Descripci6n
E odo de e portac16n de base de da;:os escribe datos en un oriP,en de bar;c de da ,
relac1onal cornpa ble con ODBC (conex16n de base de daws ab _a) Cor fir rJr.
escnbir n una fuente de datos ODBC, dicha fuente debe ex1s r ~ Ere· p rr ho ,J,.
escn ura para el.

Este nodo perrn,ce la salida de arch1vos pianos de datos a un arcr 10 d~ tez o dPlim1t;,<Jo
Es ut1I para la exportac16n de datos que pueden ser leidos par otro<: anali:1•, o vjr ,.,
prograrna de hoJa de calculo.

Este nodo indica los datos de salidas del nodo de exportaci6n SPSS ,., forr a o SPS' •,, 1
Los archivos sav pueden ser leidos por diferentes productos de Sf'SS. E:-.i.e 1;:-:, tar b f. ·I
ormato utilizado para los archivos cache en Clementine.

Este es el nodo de exportaci6n Dirnens1ones, el cual func1ona en el forrnato u liz;.;dr) prJr


el programa de investlgac16n de mercado SPSS Dirnensiones. La b1bl o r1ca dr. o::i 0 ; d1;
Dimens1ones debe estar instalado para utilizar este nodo.

Este es el nodo de exportac16n SAS de datos en forrnato SAS para ser leido c-r1 ,., .. frj rn;, r;
o nor ur prograrna compatible con este. Hay trF>s forrnatos de arch1vo ':,/. q JP F·'; j 1
d1spornbles en Cler11entine SAS para Windows/OS 2, SAS para U JI/. v SIS ,,-r~ior 7/2

Este nodo representa las datos de sal1da del nodo d~ e1portac16r rru--1 er fr,rm;;t0
Microsoft Excel ( xis) Opcionalmente, se lo puede elegir para r,<JnPr ,,n rr ;,rd;,
autornaticamente Excel y abnr el arch1vo exportado cuando :-.e ejecute ,~ nodo.

Fu nte: el au or.
I II dI 'i I I If 1I I I .• {) ftWtltl' ,I''/ 1,,rn,•ri1lr1< '/HI <·I < li•rr ' n 1r ,. '} r, 'lff ' ,,i /,-1
' ( jl
.i 1,11111 II ·I c ,,,1oi1tr,J:1 •,d,-flt1Jv,,l,J',r,rJ<fo-;IJ, l,-t1 ,.,., lv,r.,,j:.,:
1111,· 111 1111llt d1•'i,lllfJ di ( P1 J'/ • I •fa

, 11 , 11, 1il1.111111d11•, Ir,•, 11ot In' ~ • '


c 11c , dm u ,de.JO', p,u,i r,m·,tr
,
wr V, rn< J j< -k 1·, d, rr11r1i;r'
'-IJr-
d t 11 , 1•I I It ·I I It' I ii It 11 rv1 rl 11 rl r!1 •,
I" , ,, 11 ,., (11J,
1
',(' utdlld Id f1lhd Jtr<·dr(r
,
, fJ,H,1 ,j~;r r, l<·r,v1r,
., ~·
·
~ 1t II dolt y I 1II llllldl ,1 • 1
I , JN uc 1011 ,,,' rrr•, d,1', ,,n una 'P',16n, :'J',t UHr 1r1 I</, I / </Jr•'·. Y ,,,,
I U ' 11 11 11 , ilicJr1 d1• lo•, rr- ,ult,1d<J',; finalrn,·ri tr•, ',', 11rr ,. rJ r,1<·' ,f.:nr, •-;...
1
u,11 1111·.p,11r111,,,"
1
I 'I 11y1 •t I \ qi It• •, f ' lllll .,z I) •r I ( rr, try 111••,11,
1
j
11 •• , • ·, r, fl,H r>ro/NJ()'; <Jr.: ((11(1(•(1 ;) d<· ()d1<;',,

2 I .• p, rt s d las categorfas del SPSS Clementine son las siguientes:


.1 , ourc :;i: n esta categoria se encuentran los diferentes orfgenes de dorde se var,c
ol>t n r los datos.
h. R cord Ops: en esta categorfa se encuentran todos los nodos que perrni:er
') I c. ionar Y manipular los datos de los registros en las fuentes conectadas.
c. Fl Id Ops: n sta categorfa se encuentran todos los nodos que permrten maniplJ a'
Ir s olumnas.
'fle8
d, r ph : sta categorfa permite representar los datos de los origenes de manera gra
tr,,os
1 • Mod ling : n sta categorfa se encuentran todos los modelos, tanto descnP
rorno pr diclivos.
resulta do<,
I. Output: sta categorfa se ubican los nodos que permiten ver Ios
n
obl nidos a partir del modelo.
0rrO~
~- xport.: por m dio de esta categorfa se puede exportar los resultados a
rnotor s d base de da os, asf como de archives pianos.
i< 11 I{ I
n1 nti11

bj ttvo
I 11 t' ,l, t ,111 lull l'I l, tll11 .iµ, n j 'rd I · p
1 d in talacion de SPSS
t h·111 111i1w, 111 qu,, It• ,1 ud ..11 1 n t 11 , JI un problema al momenta
1

dt· l'it'L llldl •-,tt, p, w~, dl11J y I l'dl n I pr ct d min rfa de datos.
l\n" d ,,;p 'idr u 1lqui ,, dud..i J , 1 d la in talaci · n puede revisar la
1111011111H ll 11 111 ,1 i.1 pt11 I Id' qUt' f rn1a part d I mat rial digital
qll ' d llllllhlll I d ' l' lib, 1 y qll 11 u ntra n la pa ina w b de la
I dltl111111 Mll I 1.

nt nld
1 I 111•.t,111111111 rh•I 11111~1.111111 I'~ t·1t,1m11tim:
I t l\p;p•. pi11 ,, l,1 l1P,l.1l.it ll·111 dt•I pn 1g1,nn,1
11 ,

1
,1' 1
, l h•111t 1 11tl1w
p C em ntine 3
,
ntine

m n in 12.0
Ins.till! Cl
In 11
In 11.l on ln1tructlon1
• CD~ROM

• SPSS Products ind Serv~s


Brow$ for SPSS DitlAcc:es.s p~

Figura 5.1 entana de instalac,on de SPSS Clementine

luego e la ins alacion, se pod ran realizar con posterioridad algunos ejemplos para poner
en practica el uso de este software y aprender todo lo concerniente a sus herramientas,
a pa ·r del abordaje de algunas situaciones reales.

5.1.1 para la in talaci6n del programa SPSS Clementine


. lngrese a la carpeta del software Clementine y haga doble clic en el fcono setup, tal
como se muestra en la siguiente figura.

lipo Tamaiio
fecl\a de modifica ...
Carpeta de archivos
02/09/2012 9-.28
Carpeta de archivos
02/09/2012 9:28
Carpeta de archivos
02)09/2012 9:28
Carpeta de archivos
02/09/2012 9:28
Carprla de archivos
02/09/2012 9:28
Carpeta de archlVOS
02)09/2012 9:28
Carpeta de nrchivos
o2J09/2012 9:28 2KB
Inlormac16n sabre...
01/03/2008 8:50 94 KB
Archivo PDF
01/03/ 2008 8:50 616 KB
Aplteaci6n
'3()/].l/2007 9,41
2. continuaci6n, se desplegara la ventana de instalaci6n (vease la figu ra iguien et
vez que esta aparezca, haga clic en la opci6n Install Clementine.

Clementine®12.0
lnstaJI Clem•~
q

Install Python

View Installation Instructions

Browse the CD-ROM

Browse the SPSS Products and Services

Browse for SPSS Data Access Pack

Exit

www.spss.com C 2007 lntqril - .. Ud. All rl(hts f!!M'M!d.

3. En seguida, observara una ventana de bienvenida . En ella elija el tipo de liceno.


acorde a las necesidades de uso del programa a instalar. Escoja la primera opcion 1
haga cl ic en Next (siguiente).

j'} SPSS Clementine 12.0 - InstallShield Wizard

Welrorne to the Inst.a~hield Wtzard for~


<lelnentine 12.0

The InstallShield(R) Wizard will install SPSS dementine 12. 0 on


yo_ur ~puter. Please select the type of license you will be
using with this product. Then elide Next to continue.

e Single user license (I purchased a single copy of


the product.)
0 Site license (lVly organization purchased the
product and my administrator gave me a code.)
Network license (lVly organization purchased the
0 product and my administrator gave me a computer
name or IP address.)

~~G: This program is protected by copyright law and


international treaties.

[ < Bade ![ Next >


/
< ••IHlulo ' ,: 111 t,1l,1c Ion cl<• P ( lt>mcntine 85

4 t v re' c1hor,1 unr1 V<'nt 1n,1 oriicJ I


pr 11 n rc1 or I0n pr1rt1 .ic 'Plt1r 1 , L'·r
d pr c nt d por I f
.
· · 1·· I
. a 1gu ra s1 gu1ente . E 1Ja a
n N xt ( ,i u, ntP), rn inoc, d · I lie ncIa Y luego haga cl ic otra vez

.0

l
Pl r d the following hctn

THIS LIC NSE AGR - MENTI S YOUR PROOF OF LICENSE.

THIS IS A LEGAL AGR M NT FOR A SINGLE-USER LICENSE OF THE


SOFTWAR BE1WE N YOU ( ITHER AN INDIVIDUAL OR ENTITY) AND INTEGRAL
~OLUT!ONS LIMITED . If you do not agree to the terms of this License Agreemen~
1mmed1ately return lhe package This License Agreement shall apply only if you
have not sign ed anoth er SPSS License Agreement or an agreement with Integral
Solutions Limited for this software.

This software is protected by both United states copyright law and international

G1 I accept the terms in the license agreement Prilt


I do not accept the terms in the license agreement

lnstallShteld - - - - - - - - - - - -- - -- - -- - - -- --
< Back Nex

5. En la siguiente ventana tiene que especificar la direcci6n en donde desea instalar el


software. Para este caso en particular se escogi6 la sigu iente ru ta : C:\Program Files\
SPSSlnc\Clementine12.0. Luego, haga clic en Next (siguiente). Usted puede escoger la
ruta que crea mas conveniente para su computadora.

SPSS Oementine 12.0 - InstallShield Wizard

Destination Folder
Gide Next to install to this folder, or did< Change tD i'lsta'I tD a afferent fader.

Instil SPSS Clementine 120 tD~


C:'f>(ogran Fdes\Sf>SSinc¥]ementile120\
Ins e J d - - - - - - - - - - - - - - - - - - - - - -- - - - - -
<Bade

7 . El paso que sigue es esperar a que el software SPSS Clementine se instale en la


com putadora . Esto puede demorar algunos minutes.

-j} SPSS Clementine 12.0 - lnstallShield Wizard

lnstalfmg SPSS Oementine 12..0


l'he program f-eab.Jres you selected are being installed.

Please wait while the InstallShield Wizard installs SPSS Clementine 12. o. This
may take several minutes.

Stab.Js:

.:;-;;_::-::--=~:::--=-=-=~;;_- - - - - - - - - ~ - - - - --

Instal1Sh1eld - - - - - - - - - - - - - - - - - - - - - -
tJUlul ',; l11 ,I.ii, c 1011 cl, ,J'' ', l1•t11(•11ll1w 10

. Un vez t rmin d I instc1I ri6n, d b rci h


d Pl j p r cl1 c Pn f-ini cfi (t 'lrTlln,H) r•ri l,1 ,,.r,Lui,,
arc tt ,pod rr g, trarl lie. r1 ·,r
y lc1 1nslcil..-1c 16n p ·rrncJrH•r,tr•

12.0 - Inst II h, Id Wi2ard

license and Register SPSS Clementine


12.0

The lnst.sltShi Id Wizard ha~ !ilJC My In. tall d Sf'SS


demcntine 120. Cltci FITTl!.h to l'!J<it the wiz.,,d.

Clid( Finish to ~tart the Ii n:.e authorization proat., • You


n ed the authorization code that wa?. induded with your
software tn get a license.

~ Reqister with spss.oom < Back Cancel

9. En la nueva ventana que se muestra, escoja la primera opci6n (usa r la licencia


autorizada) y luego haga clic en el bot6n Next (sigu iente).

II SPSS Clementine 12.0 Licensing


Choose Licensing Method

I want to:

@ License my product now (recommended) .


Use your authorization code or license code to permanently license your product.

0 Enable a temporary trial period of 14 days . . .


- •
Please 1,cense your Product as soon as possible, When the trial period 1s over the
software will not run,
ta mining - Mlneria de datos

Lu go se mostrara una ventana en la que se pediran los datos de la licencia.

mSPSS Clementine 120 licensing

Trial License

To enable a temporary trial period, click the browse button and select trial.txt
from your product's installation folder.

Trial License File:


IL,___ _ _ _ _ _~

The trial license period starts the first time you use the software and lasts for 14
days, after which the software will not run . Please follow the In stallation
Instructions to permanently license the product as soon as possible.

tt.elp

10. Llegado a este punto, busque la ruta que se encuentra en la figura siguiente (C:\Program
Files\SPSSlnc\Clementine12.0\bin\trial.txt) y haga clic en Next (siguiente).

ml SPSS Oementine 12.0 Licensing


Trial License

To enable a temporary trial period, click the browse button and select tnal txt
from your product's installation folder.

Trial License File:


C:\Program Files\SPSSinc\Clementine 12,O\bin\trial.txt

The trial licen~e period starts the first time you use the software and lasts for 14
days, after
. which the software. will not run · Please f o11 ow th e In stall at1on
Instructions to permanently license the product a
s soon as possible
89
Ii
n Fini
l n Ii: r) e 1 ' en na de instalaet6n .

Cld: Fnsh start kense aulhonza IYO(ESS. You


the authorizaooo CDde that was ndJded · Y<U
ar tD t a kense,

< Bade(- _ ___,] i ~

12. Una vez conclu ida esta acci6n, ejecute el soft\ are SPSS Cleme ·ne. Para ello, siga I s
siguientes pasos: vaya a lnicio, escoja Todos las progra mas, seleccione la carpe ..a SPSS
Inc, y finalmente haga cl ic en Clementine 12.0.

SharePoint
Skype
SPSS Inc
Clementine 12.0
Clementine 12.0
Demos
Documelltati n
.. License uthorization izard
.. SPSS License Utff
Se d splegara una ventana (vease la figura siguiente) en la cual podra desarrollar
cualquier tipo de proyecto de minerfa de datos.

• • SN'ttt I RttOld Ops I Fltkl 01)1 ~ Of10fll • MOO.lint! ■ ~ a &llort

13. Ahora bien, si desea saber c6mo funciona el programa, haga clic en la opci6n Open
(abrir) y luego seleccione la carpeta Demos, tal como se muestra en la figura .

file 1;011 tnsert ~ew Iools Jl,uperNode :tttndow t!elp

D v Open

Buscar en Clement1ne12 o

Accesslblilty
bin
component
conftg
Cl Demos
o{)
ext
Help
Jre
lib
licenses
Modi
acrlpts
-
t 1)11 J II I 11 I ,, , I•,, ,i

14 ntr t -;L1 ,Hpt l.1, .il11,1l.1 r .11111•1.1 I I.P,,1111. 11,111 l/t,ul1jl1 /' ,, 1,jd, 1,1,1 'I' 11,1111,,, I
t 11. b I k1 uh• I Pl 1111•.i1h1 11H1tl11, •,1 o1•A Ill ,!1 •, c• 1, 111w,l1 11 11 , o 1,11, • I· 1 , ;11 1 , ..

·r mL i 11 t I p1 ot1,1 .irq,1 ,

BAS T81n
f Ml 11 j / /
1t11 1rs I f1111

)] 11111/

11 fl Ids
1 u n , ningun tipo de problema al o e .. o e esa
u 10n I software SPSS Clemen ne, se ·e e
u pasos al momenta de su ins alaci6 . E es e ca 1
In talar PSS Clementine se abre la ven a a e i s alac o
, ura el tlpo de licenci que se va a usar. Luego, se ace a s .. e
4
h ncia y se sp c1ftca la di recci6n n donde se de ea ins ala e ~e - ., ,. r

completa la mformac1on d I usuario Una vez echo es o, el S


empt za a instalarse en la computadora. I conclutr la i s a ac10 , s
(frnalizar). Posteriormente, se tiene que comprobar las da os oe la 11
aparece una ventana en la que se p1den los da os de a 1 a. I
requ,ere comprobar la ruta establec,da para es e pro ra a. or ul
con el proceso se hace clic en el bot6n Finish ( nall ar) de la e
2. Para que la instalaci6n sea permanente, se pueden copiar losa c
que se encuentra dentro del software SPSS Cle en ne 1 .0. Lue . e
estos archivos en la siguiente direcci6n: C:\Progra Ftles\SP I \Ce e
3. Pasos para ejecutar el software SPSS Clementine: a a lni i
programas, seleccione la carpeta SPSS Inc, y finalmen e ha a cli e
4. Si se desea saber c6mo funciona el programa, se pue e Isa la
la carpeta Demos y revisar cualquiera de los pro ectos
encuentran.
5. Recuerde que los pasos de la instalaci6n estan e lica s e u
del material complementario del libro. Este se halla is
Editorial Macro, dentro de la carpeta instalacion_cleme ue e
archivos_complementarios.
Aplicaciones con
diferentes tecnicas de
mineria de datos
Objetivos

En este capftulo el lector podra revisar el planteamiento d v int. c: 'o•,


desarrollados de manera facil y sencilla. De esa manera, al finalizar la I c. ur d
este libro, sera capaz de elaborar diversos tipos de aplicaciones d min rfa d
datos mediante el uso de diferentes tecnicas como los arboles de d cisi6n, la
redes neuronales, losclusteres, las seriesdetiempo, la asociaci6nyd p nd ncia,
la validaci6n de datos err6neos, y la integraci6n y partici6n de datos.

Contenido
0
6.1 Caso n. 1: Predicci6n de juego de tenis (arboles de decision)
0
6.2 Caso n. 2: Predicci6n de planta iris
0
6.3 Caso n. 3: Predicci6n de farmacos
0
6.4 Caso n. 4: Problemas de cluster (caso empleados Memolum Web)
0
6.5 Caso n. 5: Agrupamientos en relaci6n a las ventas
0
6.6 Caso n. 6: Datos err6neos y faltantes (caso empleados Memolum Web)
0
6.7 Caso n. 7: Obtener y transformar datos a traves de ODBC (conexi6n de base de
datos abierta)
0
6.8 Caso n. 8: Catalog_forecast (series de tiempo)
6.9 Caso n. 9: Computer hardware data set
0

6.10 Caso n. 10: Detecci6n de fraude


0

6.11 Caso n. 11: Validaci6n del modelo Drug con datos nuevos
0

6.12 Caso n. 12: lntegraci6n y partici6n de datos


0

6.13 Caso n. 13: Columna vertebral (partici6n de datos)


0

6.14 Caso n. 14: Validaci6n cruzada


0

6.15 Caso n. 15: Trabajar con pocos registros


0

6.16 Caso n. 16: Reglas de asociaci6n y dependencia


0

6.17 Caso n. 17: Regresi6n logfstica (telecomunicaciones churn)


0

6.18 Caso n. 18: Predicci6n secuencial


0

6.19 Caso n. 19: Exportaci6n de modelos y resultados


0

6-20 Caso n. 20: Series de tiempo (pronosticar)


0
Ca11ilu)o 6: , µIi a iOll('S C'OJl (11'r l I' .
err11 , l'ClllC',)S fll' lllilll') i,1 clp cl,11{)•, ')'

En este apartado se explican veinte casos vinculados a la minerfa de dalos, los cual s
consisten en ejemplos que implican el uso de redes neuronales, arboles de d cis16n,
clustering, series de tiempo, etc. Tambien se van air explicando, al mismo tiempo yen
detalle, c6mo se usan cada uno de los nodos en la resoluci6n de los casos propuestos
en este libro para que asf el lector pueda entender este asunto de man era sencilla
y, despues, ap liqu e este conocimiento en el abordaje de problemas vincul ados a
cualqu ie r area o rubro. Cabe anotar que la resoluci6n de cada uno de los siguientes
ejercicios implica el uso de una serie de recursos en lfnea presentes en la pagina web de
la Editorial Macro. Asf que, para entender algunas de las explicaciones, es necesario que
el lector siga las instrucciones y acceda a aquellos.

6.1 Caso n. 1: Predicci6n dejuego de tenis (arboles de decision)


Para comenzar a introducir al lector en el maravilloso mundo de la mineria de datos Y
hacerle ver el potencial de la herramienta SPSS Clementine, se va a construir un modelo
predictivo basado en arboles de decision, tal coma se muestra en la figura 6.1, que
permitira determinar si es que se puede jugar al tenis o no, de acuerdo al acaecer O no
acaecer de ciertas cond iciones climaticas.

~
; ~"" "
PlayTennlsRS

- - - . - . . [rrm]
® - -~® 1ype
T tblt

ly-a)

T be
Temperature

Figura 6.1 Arbol de decision p el desarrollo de s e


. con este mode Io. ara
. tira en tra baJar
El presente ejemplo cons1s . . ntes pasos:
caso I usted debe seguir las siguie

Clementine. s·,ga la
SPSS Inc
SS
1. lngrese al SP programas / Clementine 12.0
I
secuencia: lnicio / ~ados ~ Luego, haga Clemen me 12,0
SPSS Inc / Clementine 12 · ·
clic en el icono del diamante. Docum n i on
lice rH e Autho~11~1~~:,:.::;..;.:__..J,...-'
---
Un, v 7 h h t ,I , :oil' ~1brlr, l.i •1lgtll1 1 11t I VPnl n n cuyo interior se hara el diseno
mostr d .

■ Output

2. Ant s d rnp 7 , d , , r II, r I moci lo, I primero qu debe hacer es revisar bien
la inform ion qul 1
n u ntr n I 1 drp ta archivo data\ PlayTennis\ playtennis·
evid nc .txt. f n I c1 f1 u, 1 , uil'ntc, 5 plant I sc nano de que se ha abierto
esta c rp tc1. Ln ,11 h,1y un .irch1vo L'n C"'I qu obs rvd que son cinco campos 0
par rn tro lo qrn l' v.in ,1 util11.1r. Cu,1110 cfo 1.:llo. c;on d nlr.ida (,nput) c:omoS Y
T mp , .:itu1 , I lumid1ly y Wmd . 11 otrc qw' qu ,cJ,1 (Pl yl nnis) s cl de sc1l1da (output!

1 MOfH r lW W1 net
HlJl 111 11
ttot tt I qh
~lot
Mi 1d 111qt,
ool N , mil
l)O 1 Nut rn i I
. t I II 11
M11d tilqh
- oul NlJI tll
M 11 ci NlJl·m
M 11 d Nnrm
t M 11 l
I t It l
MI I cl 11 I ,11
apilulo 6: Apli ac lanes con d'f
• i erente te>rnicas de mineria de clatos 97

3. En la pa rte inferior de\ panel de desar 11


ahora el icono var. File y arrastre\o ro o, en la peSt aFia categorfa Source, seleccione
I
a pane 1de desarrollo.

Var FIie

fl Favorites [ • Sources \ • Record Ops


- ,-
• -Field Ope , -A- Graphs
- 1 • Modeling ■ Output

@
Ent11p11.se View 01\abuo Vu F1lt Fixed Flit SPSS FIie Dimensions SAS Flit Exot l U,11 Input

4. Haga doble clic en el nodo var. File y \uego busque la ruta por la cual se encuentran
los datos a ser analizados. En el presente caso, dichos datos estan ubicados en la
siguiente ruta: archivo_data\ PlayTennis\ playtennis-evidence.txt. Luego, debido a
que los datos estan separados par un espacio, haga c\ic en el check box de Tab (en la
opci6n Delimiters).

FIie O:IOAZA_LIBRO_MINERIADEDATOB\archlvOs_data\PlayTennls\playtennls-evldence bet


Wind Pl8yTennio
Sky Tempet8tut• Huaidi ty
Sunn Hot Hi h Weak lie

~ Read field names from file D Specif)' numberofflelds ~...::::,~


oL:EOLcommentcharacters. , _ ____.
I.
®
Var. File
Skip hea der characters L~
O Lei\ 0 Right U Both
Strip lead and trail spaces: @ None

@ Discard O Replace With


-

Invalid characters:
[s~am default • !oeclmal symbol
Encoding:
unes to scan for type
Quoto
I Single quotes rDiscard
...-,
Double quotes Discard
, 11 !1 p I II , l

I 11

I I II•

• 11 1i1, 11, " 11, ~1,11 I• M111l•ll11u Ill , "'""'' , ''""'

6. El siguient p so uni! 1 I nu lo v,11 . 1111 y 1·I 11rn In I dblt , p, 11 r1 I,,, 11, ii d1 ·I ir·1 ,'1•.r•lr•cclonar
1

elnodov r.Fil . Lu u,pll I 1wl.ilt'ri11h11Hlo11,iilJyrt·,il lli·1o,,l1< 1•111 1lnurJol,Jhl'


1

V H 11111
l 1< r •
on cJ1f£-rente e0
cas d m n£>na de datos 99

7 Haga die d recho en I nodo T, bl


V dc·:puer , el
esta acc16n podra II uuliz r tod I f ecc,one la opc16n Execute. Mediante
J ,J

,r rJrrnac,on del archive.

/iii' fC3
te.i f9>
: : No
S:r,cg fes
Ne;,-_. o
,e~., Yei
ll~aY Yei
Stroni. fes
Sl'o 'J Y~;
Mea, fei
B:tor~ to
pla-ytar n111- dine,

En esta figura se puede observar que hay catorce registros. El pa rametro Sky contiene
los valores Sunny, Overcast y Rain; el parametro Temperature, las parametros Hot,
Mild y Cool; el para metro Humidity, las valores High y Normal; el parametro W ind, los
valores Weak y Strong; finalmente, el parametro PlayTennis contiene los valores Yes y No.

8. Si busca determinar la cantidad de valores que tiene cada para metro, puede hacer uso
del nodo Distribution, para lo cual selecci6nelo de la pestana Graphs y arrastrelo a la
ventana de desarrollo, tal como se muestra en la figura .
1,
n I nodo Distribution. En la propiedad Field seleccione el c
arnpo
r tur y n la prop, d d Co lor escoja Temperature.

PIOI . • Selec ted neldS ; All nags (true values)

I
Field if Temperature
0Ve r1 y

Color Iff Temperature


I Normalize by color

Sort •) AJphabellc By t ounl

] Proportional scale
Output Annota!Jons
mp r ture
► gecute 11 Cancel

1o. Lu ego de un clic en el bot6n Execute para obtener la visua lizaci6n de los datos. Enel
cas o de la figura siguiente, se puede observar que cuatro dat os son Cool, cuatro son
Hot y seis son Mild . Usted podrfa realizar los mismos pasos con el resto de parametros,
lo cu al le ayudara a manejar un conocimiento de las datos posefdos para asf tener una
idea de las resultados previos que se van a obtener del ana lisis.

G Eiie ~dlt

Value Proportion % Count


Cool 28,57 4
Hot 28,57 4
MIid 42,86 6

Temperature
□ cool ■ Hot
■ MIid

Table Oraph Annotations ]

r OK i
/
aµftulo f>: Apli< ar,onP\ <.on difer .
<'rite.-, tee n1cas de mineria de datos 101

11 . Ahora procedera a determinar c , 1


, ua es van a ser I ,
y parametro de salida (output) pa h os parametros de entrada (input)
. ., ra acer a trave d I
pred1cc1on del memento en que s d , s e uso de redes neuronales la
e po ra o no J. I ·
nodo Type de la pestana Field , ugar a terns. Para ello, seleccione el
. O ps, arrastrelo al pan I d d I ,
nodo var. FIie. e e esarro lo y unalo con el

@ -------.. 1®1 ,~:


playtennls-evlden ... !..Type__!

Temperature

12. Ahora haga clic al nodo Type. Podra observar que se han reconocido todos los
campos que tien e el arch ivo con sus respectivos tipos de datos. A continuaci6n,
proceda a dar un clic en Read Values para que empiece a reconocer todos los valores
que tiene cada campo .

Type

@ Ci-
- ---
~ 118 [ ► ReadValues
Type
j Clearv~!i[c1ear AIIValues
Values Missing Check D1recbon
Field ""-.. In
ovarcast,Raln,Sunny None
~ Sky Set
Cool,Hot,Mlld None ""-.. In
~ Temperature Set
Normal/High None ""-.. In
~ Humidity Flag
weak/Strong None ""-.. In
~ Wind
Flag ""-.. In
Yes/No None
W Play'Tennls Flag
!@•+
-■+
-A+
__ Type ...
0 View cu~ent nelde O View unused lleld &Bitings
Types_l F~ at_ J Annotations
&Jply
@[ cancel ]
h l nt 1,1d,1 (p111 ,111wt1 m ) t'n ll c11n1po Dir
1n hi ty1 ', 11l u 11 " v.i .i .i1i.1ll,i11, Ot ,pu
tiv s li<'lll ,l~ di l 1 l 1 I Id lf• LI ( Il l IV 1l lill) , :
1
m i

I II V 1h11 • ) l II ,II II V hll j


I Id V 11111 , IMl 1111:11 111 ck j Dltu Uon
~ I,)
Nonu In
~ T mp tu, Nono 111

~ Humldltv Nonu In
~ Wind N 11 • In
~ Pl VT nnl Nun Oul

VI w unu d rl lrl , llln

Form t Annot,1tlon
, nr I 1 p I [

En esta figura se advierte qu los c mpos Sky, l mp r tur ', Hurnidit y Wind han sid
considerados coma parametros d ntr d . n s ntido, I h stablec1do e
campo Direction coma In (vari bl s pr dictiv s), mi ntr qu c1I campo Playfenr
se le ha asignado Direction como Out (v lor pr dictiv ). P ra fin, lizar y sal1r de
ventana, presione el bot6n OK.
14. Ahora se agregara un modelo d min rf d d tos qu vt1 p rrnilir pr d cir s1 se pu' 1

jugar al tenis con ciertas condicion s cl im tic . p r llo, vJy, tl I 1 p, t fi;i Mod•lin
escoja el arbol de decisi6n CS.0y ubfqu lo n I p n Id d irrollo p,1 r, lu goconectd
con el nodo Type, tal coma se muestra n la fi ur mostr,,d, d cont111u,1 16n

I ,1bl

®
pt " '""""'' ~ lyp

M
T mp, r fur
103

nere el modelo al dar clic derecho en el nodo cs.a y selecc1onar la


ecut . Un vez generado el modelo, aparecera un diamante en la parte
1 r rech de la pestana Models coma se muestra en la figura colocada
11 t interior.

·@ :
lp1avTennlsl
l - ---!

16. Arrastre este diamante generado al panel de desarrollo y luego conectelo al nodo
Type como se muestra en la figura.

!"ml
~ PlayTennls
Table

_ ___.., ®
®
playtennls-evlden Type

Temperature

·1

/ ►

I IT nnl

18. aga ooble d ie en el nodo Analysis luego presione el bot6n E ecut . on llo, podra
visuarzar la cantidad de datos que fueron predichos de man ra corr t incorrecta
Segun la figura mostrada en la pa rte inferior, se puede obser ar qu I cantidad d~
da os predichos correctamente son catorce, los cu ales repres ntan I 100 ode los
dates. Por otra parte, los datos predichos de manera incorr ct on 0, lo cuale
representan O %. Debido a ello, y ya que ofrece resultado f r bl - , P ilM
concluir, entonces, que el modelo de arboles de decision es el ad uad par ab rd·lf
este tipo de problemas.

e Results for output field PlayTennis


e Comparing $C-PlayTennls with PlayTennls
Correct 14 100%
Wrona 0 OCJI
Total 14

_Analysts Annotations
rm <1ifenmLes ternicas de mineria de datos 105

19 Ahora anada un nodo que per mi·t a ver una tabla cruzada de los valores predichos.
110 5 1
Par ,_ ·ccione el nodo Matrix de la pestana Output y conectelo al diamante
PlayT nniS, tc:11 como se muestra en la flgura ubicada en la parte inferior.

pl • nnls- de Type
--BJ

Temperab.Ire

20. Luego, haga doble clic y seleccione en las filas (rows) los valores reales de PlayTennis
y y en las columnas, (columns) las valores predichos de PlayTennis, segun como se
muestra en la siguiente figura .

PlayTmnis x SC-

[ii ~ - - - - - - - - - - - - -
Fields. • Selected O All flags (true values) 0 All Numerics

Rows: O!> PlayTennis ~

Columns: SC-PlayTennis ~
0 Include missing values

Cell contents: ~ Cross-tabulanons O Function


----

i m
: l
i ~
i
!PlayTennls
,___ x SC-Play
1 Q pu ob ener las resultados de los valo ~
ur ,g ,en e se pued
ad ernr que de los cin
. Co
r dichos de m nera correc a c1nco, m1entras que de los
ron pred1chos de manera correcta todos .

Q. n r

y
5 0
0

·I bul Hon offlelds (Including missing values)


= 1~. df= 1, ptob blllly= 0

ranee Annotations

PlayTennls X C-Play

22 . Como siguiente paso para este ejemplo, anada un nodo Table (este se encuentra en
la pestana Output). Luego, conectelo con el nodo diamante (vease la fig ura siguiente).

i[i]i
i
: F:m
lm
ayTennls l
i. Table __ _

• c~
PlayTennls Analysis

PlayTennls x $C-Play.
Capitulo 6: plicarion con dif r ntt' t ni a d mi1W11,1 ch d,,t ~
ll) /

23 _Despues, haga doble clic en el nodo Table y presione el bot6n E ecut . D


se mostrara el nivel de confianza de la prediccion para cada uno d I
la figura siguiente se puede observar que en el registro numero 1 I d
3
correcta predicci6n de si no se juega al tenis es del 80 % para el r istro mun ro 1 ,
mientras que, por otro lado, la confianza de correcta prediccion de si se j u g I t ni s
del 83.3 % para el registro numero 8. Por ultimo, esta misma confiabilidad de c rrect
predicci6n de si nose juega al tenis es del 80 %.

Table

------
- -- -- -- ~ --
(3Elle l;dlt
A
Sky Temperature Humidity Wind PlayTennls SC-PtavTenn1s[ SCC·Pla(Tennla
1 Sunny Hot High Weak No No 0 800
2 Sunny Hot High Strong No No 0 800
3 Overcast Hot High Weak Yes Yes 0 833
4 Rain Mild High Weak Yes Yes 0 800
5 Rain Cool Normal Weak Yes Yes 0 800
6 Rain Cool Normal Strong No No O 750
7 Overcast Coot Normal Strong Yes Yes 0 833
8 Sunny MIid High Weak No No O 800
9 Sunny Cool Normal Weak Yes Yes 0 750
10 Rain MIid Normal Weak Yes Yes O800
11 Sunny MIid Normal Strong Yes Yes O 750
12 Overcast MIid High Strong Yes Yes 0 833
13 Overcast Hot Normal Weak Yes Yes 0 833
14 Rain MIid High Strong No No O750

Table Annotatlons

OK

. , ol de decision que se ha generado ~e modo _rafico.


24 Tambien es pos1ble observa r el arb I d. ante Yen la parte inferior selecc1one la
. Si desea visualizarlo, haga dobl e cl ic en e 1am
pestaFia Viewer.

! categorfa %
: ■ No 35,714
: • Yes 64,286
:' __ Total t00,000 14

SkY

Sunnv
Overcast Rain

Node 1 Nodo 2
Categorfa % n categorf• % n
No
0,000 0 40,000 2
■ No
■ Yes 60,000 3 !.'!!!...
■ Yes 100,000 4 Tot I
Total 35,7t 4 5
Total 28,571 4
HumldllV
Wind
I I
I
Normal ltlgh
r strong
weak
NodoB
4 C ~:odo 7 , n
Nodo ca11qo~a _ n N 1 10
Node 3 cateqorfa 'lli n • No 0,000 0 ¥n ooo o

l_____J!■iN~o~~10~0~•,o~00~3
cateporfa % n No 100,000 2 • Y 100 000 TI I 21O• H J

■ Yes O·000 0 ■ Tolal


Ye&0,000 O 14.2808 : :'_:!._l[:~:=:===::...---
Total 21,429 3 u ~~==~
14~
,2~88::::2:.._l:=T=o=l•I= =:=.;_ _
25. S1 des a generar I s r
las d I mod lo constru1do, haga doble clic en el ~iamante PlayTennis
Y lue O n I opcion G 11 r t , qu s encuentra :n la parte superior. A continuacion
s lecc1on Rul t Una vezrealizado esto, aparecera una ventana en la cu~I debera coloca;
el nombr qu t ndr ' el diamante a generar (en este caso, el nombre sera PlayTennisRSJ.

Oenerate Modeling Node


Model to Palette


[Iller node (Inputs not used)
Sky= Overca
8 Sky = Rain I FIiter Node (Yarlable Importance)
Wlnd = W
Wind = St Rule Set
El Sky = Sunny -r---.......-----
Humidity= Normal [ Mode Yes I ¢ Yes
-----1
Humidity= High I Mode: No] ¢ No

26. Ubique el panel de desarrollo y haga doble clic en el diamante PlayTennisRS. Mediante
esto, tal como se ve en la figura, podra conocer las reglas que se han generado a partir
del modelo creado.

. - - -- - - '•
GEiie {) Q.enerate [@J-
_ ___,_ _ _ _ _ _ _ _ _ _ ___,,=--= 1

I
layTennlsRSI B · Rule 1 for No (2, 1,0)
1 1 If Sky = Rain
L and Wind= Strong
then No
El Rule 2 for No (3, 1,0)
If Sky = Sunny
L and Humidity= High
then No
B-127 Rules for Yes . contains 3 rule(s)
B ~u!e 1 for Yes (4, 1,0)
L If Sky = Overcast
then Yes
El ~ule 2 for Yes (3, 1,0)
if Sky= Rain
I ·· and Wind= Weak
then Yes
1 El-- R e 3 ror Yes , ,
1
1 if Sky = Sunny
' and Humidity = Normal
then Yes
D Default Yes
Summary I Setttngs An
n_!2!allons
OK [ cancel J --
E~ es~a figura se nota que se han . e la nurrierO
1 ind1ca que nose pu d . generado vanas reglas. De tod as ellas, la r gd _ strong-
e e Jugar al t · w·n - o
Un caso en que siempre . en1s si es que Sky= Rain Y ademas ' la nurrier
3 se juega al ten is si se cse Juel ga al ten is es cuando Sky= Overcast. En la reg
ump e que Sk
Y = Sunny y Humid ity = Normal.
Capitu1o 6: Aplic . /
ac,ones con d'f
1 erentes tecnicas
, de minerir1 de datos
109
0

6.2 Caso n. 2: Predicci6n de 1 ..


P anta 1ns4
En este caso se hara la predicc' , d
, ion e la plant ..
ciertos parametros de entrada con a iris Y, para ello se ingresaran .
I
Iris versico/or o Iris virginica Aho os cuales establecer si la pla~ta es de tipo lri primt era
· ra se procede , d s se osa,
al ejemplo de la planta iris. ra a escargar los datos que pertenecen

+- C Li archive.lcs.uci.edu/rnl/data:;et,/lr1,

Iris Data Set


Download· Data Folder Data Set Description
Abstract Famous database; from fisher, 1936

Data Set Characteristics:

Attribute Characteristics:

IAssociated Tasks:

Figura 2.2 Machine learning repository


Fuente: <http://archive.ics.uci.edu/ml/datasets.html>

UCI es la base de datos mas conocida y se encuentra en la literatura de reconocimiento


de patrones. La literatura de Fisher es un clasico en el campo y se hace referencia a ella
con frecuencia en la actualidad (vease Duda & Hart (1973), por ejemplo).
Esta es la descripcion del probl ema : el conjunto de datos contiene 3 clases de 50 casos
cada uno donde cada clase se refiere a un tipo de planta iris. Los atributos son los
I

siguientes:

• sepal length in cm = longitud del sepalo


• sepal width in cm = ancho del se palo
• petal length in cm = longitud del peta lo
• petal width in cm = ancho del peta lo
• class: = clase

• ----- rollo) est.I tornado de la s1gu1cnte p,1g1n <http //arch cs 'I u/


El pla nteam ie nto del problema (mas no su desar tamblen un conjunto de> datos par rPahz 'pru bas, t> m m,o n
ml/datasets.htm l>. En ella, el lector podra ~ncontrar
cual estan basadas esta y otras partes del hbro.
HI>

l r:;~
'
I,1,1 { l,i If
t' "L
, ( ~( '-'- ,;
. I . li,1t,1•r 11< 1,i .rr ,. :_;
, ~
J , •·
I) •. 11 ll ' . (1 ( I •, 'IJ · If) i' fl, ( ,1 J L "
r11(1d1·l<1 pr •(If( It / /' ·l ":O /(I'., ;r;J'K I r~~
11 1•. P •, 1 •11 •1 , ( • . t j 1•('• r, ,I .,· f , , ; '

. ' ...

/4
ti

I l1:u1,1 l,,J M1,d1 11, tl1• ,rt,r,I r r- dr-t:1-:1~n

1
11,1 l(• .olv1·r •',I(• l d r, ), ' , Cr·b n r ·guir los siguientes pasos.

l1tf'.1 t ·•.1• 111 ',I'', lr•rr1<·t1 tnr· '{ dhr I I ntana de desarrollo.
llt l(lldlf<•t1nt1• ltt1tl<,

: I no i I I It p. ir ,l p rl
V l t. I .
IH,l cil
pl l t .. o tt c n ,1/dr la inf0rrn;1u<'.ir1 qur,
~ p 'n ,l It! , quc lorrr1d parlr d lo·~ r<:<,W'h',
' ' n1I .1 un c he k t n I ope, n rab (, ·Jtj <'rl I<' >r>'l<J' r,
, LIi ' c , t'n l I bo16n OK.
) ') ..

' l,HdllvQ rt,11,l\pl.mt ltl' Uri ,j:Jt.J tn


:::--======-£.
pr l )4t.il ~la.Ill

l°'ffl Anno! lion

dir ' un nodo 1 bl p r pod r observar toda la informaci6n que es a


I r hivo. P r llo, s leccione n la pestana Output l nodo Table,
Id d rrollo y, a continuaci6n, co nectelo al nodo var. File, tal coma

lri d t t>-1
.r ra vi ual1zar la inforrnac16n d .I ,11ch1 vo, hag dobl • clic en ~I no:o Table Y Presiorie
O
I bot6n Ex cut'· f.n I dSO de· la hgur a siguient ', se pue e servar que en ella
I 4 son cons1derados como para
hc!y 150 r gI t Io y r; p,irfim ,t r os, de Ios cua rs metros
h th
d ntrarli1 (, pc1I I •nglh, sc pr1I w1ndth, petal_lengl , petal_wici ) Y uno, corn 0
pdI arn 'trod s.ilidd (class) para r l eJemplo.

t;d1t Qener te GC.11 = j [-T~


sepal_lenathf cepal w1dlhf petal_lengthl petal_w1dth l _ class I
__
131
___.I.---'--= 7 400 2 800 6 100 1 900 lns-v1rglnl •

132
I 7 900 3 800 6 400 2.000 lris-v1rglnL
133_ _,
I 6 400 2 800 5 600 2 200 lris-virginl
_ 6 300 2 800 5 100 1 500 lns-v1rglnl
134
6 1oo 2 600 5 600 1 400 lrls-v1rgini
135
7 700 3.000 6 100 2.300 lrls-virgini..
136
[i] .
137
138
6.300
6 400
6.000
3 400
3 100
3.000
5.600
5 500
4 800
2.400 lns-virgini
1 800 lris-virglni
1 800 lris-v1rg1rn
Table 139
6 900 3.100 5.400 2 100 lris-virgini
140
141 6 700 3 .100 5.600 2 400 lris-virglni
142 6.900 3.100 5.100 2.300 lrls-virgini
143 5.800 2 700 5.100 1.900 Iris-virgin!
144 6.800 3 200 5.900 2 300 lris-v1rgini
.!,!5 6.700 3.300 5.700 2.500 lris-virg1rn
146 6.700 3.000 5.200 2.300 lris-virg1rn
147 6.300 2.500 5.000 1.900 lris-virgini
148 6.500 3.000 5.200 2.000 lris-virgirn
149 6.200 3.400 5.400 2.300 lris-virglni
150 5.900 3.000 5.100 1.800 lris-virgini ....
Table Annotations J

5. Si quiere observar la cantidad de plantas que existe por cada clase, agregue el nodo
Distribution . Para ello, selecci6nelo de la pestana Graphs, arrastre lo al panel de
desarrollo y luego unalo con el nodo var. File.

[i]
/ ~:~,:
@
'"''""""~ -

I~
'! ...............
class .
Ii '11 I1 flh'dd i 11,1 I 1.1 1 lt 1( ( IPIH' ( 1.i•.•. I fl
~11\
t I' · 1 )ll, t l.1 y lu 'H, tl 1• 1111 1 II( 1·11 <·I li(J l<'Jll
E ! 11 I l..11 ll d1' Id llf'. ll l d 1,l1 •,1il1 ·1 it1 •, '•I' pllt·dt·
l,1 · ' /11 ,; 'i 'il so. 1 ) it1lu it, 111 l.i .(• t, /1• w·, •.1111/(Jt y

l'111p,,1111111 fl.
I
11, I 1
I 1111111
•,11
11, 11 1,1,
11, I I •,11

Cl3'
class
■ hi , V I lrol I ■ hi VII lnl

Table Oraph Annot Uon


econl Ops • Fl

7. Ahora proceda a insertar el nodo Typ , I cu I I p rmiti r


de entrada y de salida. Para ello, sel ccion I nod Typ
conectelo con el nodo var. Fi le iris.d ta .txf, t I v

I 8
o e c c. e e· o -ype I I ego ores o ee
·ece a de ec a , ee os 1a ores e e
a t. o e 1os earn os (oaral'l'e· OS/.

ig ea ra ara e ros de en rada (en Direction coloca'" 1. :> "ga er~:::.~::.:


a se al_le gth, se, al_ ·nct , petal_le gth y , etal_ · ·dth. 1-..s·..,,,·s :-= :.:-_:
ara e rode salida a class (en Direction colocar O ). Fi al e e, res·o e e :-:.:.: ~ ~

'
. -
~

- - - --- ~ --- -
--~~~----~-~~-~=-=-=-===--~ •J
•• r

10. Escoja un nodo C5.0 (este see c e ra e


o e ·~g
de desarrollo. Luego, conec e,o con e
0
arboles de decision cuyo propos1 0 es ,.e
eci e

@
ins da
-

c ass

11 . Ubfquese en el nodo class, haga un die en el bot6n derec' o I ego 'es·o e a o::..:·o..,
Execute. Esto generara un nodo diamante, el cual aparece e ·a a e s~ e• o a
derecha en la pestana Models.

-~ fdlt..
01i;connect F3

class Bename and Annotate

Cuj Or1-X

Cl!PY Node Cl1I-C

X Delete swmr
\
].oad Node
~ Rebi~Node
!iave Node..
~ store Node ..

Create S.1!,PerNode


~ EJ,;ecule Clrl-E
1

class

1 Para poder analizar los resultados que se han obtenido con el mod elo generado,
agr gue al panel de desarrollo un nodo llamado Analysis, el cual se ha Ila ub1cado en
la pestana Output.

- - - - ~...► 11°'11
class i i
!Analysis i

14. Haga doble clic en el nodo Anal s· oder


15
visuallzar los resultados E I y Y luego presione el baton Execute para ~,,., se
d · n e caso de I fi ac10"
pue observar ahora que 146 de lo a gura siguiente, al hacer esta aper ente, o
qu representa el 97,33 %. s 150 datos han sido predichos correctarn
Capitulo 6: plicacione con d"f
1 f'rl'nt I cni a de min ria fie dato 117

p0 r otro lado, de los 150 datos han s·d


1 o pre d'1c hos 4 de manera incorrecta lo que
representa el 2,67 %. '

~file .!;dit

[ & Collapse All Expa~Allj


B ···Results for output field class
El . comparing $C-class with class
iI Correct 146 97 I 33%
' ·· Wrong 4 2,67%
Total 150

Analysis

Analysis Annotations I

OI<

15. Af\ada un modo Matrix con el fin de saber cuantas clases han sido predichas de
manera correcta y cuantas de estas han sido predichas de manera incorrecta . Para ello,
coloque el nodo Matrix (este se encuentra en la pestana Output) y luego conectelo
con el nodo diamante class, tal coma se muestra en la figura siguiente.

c~
class Analysis

........... ·1

1■1
t.-~~~ti~- j
,

'1 SE O OS a 0S0 e n.dos( ease .a ·gt.irasgu1eme).

·~

, 'P'')<a ns-t:?rs,coL lris-·t1rg·nca


er:., •50 , 0 0

o 47 3
o 1 49

r,1; i, ~rJr4fi1n. ,,r%~~btJl~on of fields (including missing values)


r,t •,•J1Jarr:ui: ,77,1e'3, df= 4, prob.ibilit,,= o

-----

, •,1.,1 ,µ,,u ., ir,·,,,, t ,icJ;i ·,, adv rli r que de la clase Iris-setosa todos lo; 50
PlJl•do r datoS
10
.., , -,,,1,, 111 ,,,J11 1,. ,-, d, rri;m,•rn 1>x1to·,a, mi ntras que de la clase Iris-versico 0iar50en~10
.., -,,, :, , d, 1r ,,r ,,,, .r « 111 ,,, ta ,, 7 d to, d SO (3 fu ron reconocidos ·in correc iase11 Ir iS'
11 ,1

, ,"'", r,• , '•·1 ,, ' '' ' • ' ", ·• 1,, d,1•,o In•, Vlrgl nlca). Par Ultimo en cuanto a la c ocid
0
"'111v,11" ,, 1,,,,..,,d,, "'<•did,,,,,""" ,,_1;11ncn1 19 d,1tos d SO (solo un data f ue reco 0
,, 111•,11,,,,1, 11 1

1
1.. ,., ,1 L1 t L,·,, '
lri·, vc r',itolot) .
/

Lt'>( 111c ,,s ell' mincrla de datos 119

1 ~ ib r lil c nfi 11111 d pr dicci6n para cada uno de los registros, af\ada un
1,,l>ll II Pim I d d sa rr llo (dicho nodo se encuentra en la pestana Output) y
I
n d
n t ,1u I di rn :int cl ss, Lal como se muestra en la figura.

~
~Tble

·~ An lysl&

class k $C-class

19. H g dobl clic el nodo Table y luego presione el bot6n Execute para mostrar los
resultados.

, ' ~.~~
~ - '
~
_:--.•-~ ~;,.:~·~ -~ ""
: _ ~ - ~ j" ~

.Edit Q nor to J }dlll]


T pal_l ngtcl sepal_wldll{pet Uengthfi;"otal_wtd"iti"f class [ SC-class] $CC-class I
t 5 100 3.500 1 400 0.200 lrls-setosa lrts-setosa 0.962
2 4 900 3.000 1 400 0.200 lrls-setosa lrts-setosa 0 962
3 4 700 3.200 1.300 0.200 lrls-satosa lrls-setosa 0 962
• 4 600 3 1 00 1 .500 O 200 lrls-setosa lrls-setosa 0 962
5 5.000 3.600 1 400 0 200 lrls-setosa lrfs-setosa 0.962
5 400 3.900 1 700 o400 lrls-setosa lrfs-setosa 0 862
7 4 600 3 400 1 .400 0.300 lrls-setosa lrls-setosa 0.962
8 5.000 3 400 1.500 o200 lrls-setosa lrls-setosa 0.962
9 4 400 2.900 1 400 0.200 lrls-setosa lrls-setosa 0 962
10 4 900 3. t 00 1 500 0.100 lrls-setosa lrls-setosa 0 862
5 400 3.700 1.500 O200 lrls-setosa lrls-setosa 0 962
4 800 3.400 1 600 0.200 lrls-setosa lr1s-setosa o962
4 800 3 000 1 400 O100 lrls-setosa lrls-setosa 0 962
4 300 3.000 1 100 0.1oo lrls-setosa lrls-setosa o062
5 800 4.000 1 200 0 200 lrls-setose lrls-setosa 0 962
5 700 4 400 1 500 O400 lrls-setosa lrls-setosa 0 962
5.400 3 900 1.300 0.400 lrls-setosa lrls-setosa 0 962
18 51 oo 3 500 1 400 0.300 lrls-setosa lrls-setosa 0 962
tR 5 700 3.800 1.700 0.300 lrls-setosa lrls-setosa 0 962
20 5 1 oo 3 eoo 1 500 0.300 lrls-setosa lrls-sstosa 0 962
21 5 400 3 400 1.700 O200 lrls-setoeo lrls-setosa 0 962
'l1 "i 1 on .J.Ulll 1 'I.On 4nOJrlla.illlo.&~..JJI t
Table J Annolotlons j -·

En este grafico se observa en el registro numero 6 que la clase lris-setosa ha sido


Predicha de manera correcta con una confianza de 96 %. Por otro lado, el registro
nurnero 150 de la clase lris-virginica ha sido predicha de manera correcta como tal con
una confianza de 93 %.
•111I11111'1 1 11!,1111 H1l1 V I 111 , , l'tll l t' I
111
fll lt11

'' II
,II
1,1
I l II

' ,I l

I 111 11

p1 ,t 11 II II 11111,
I
I
I I I II 111 Ii' II 111

I I
I l11rln l
Nt1d11 I
~. II
- ~

lrl
,lh Jllll l
to 1UO,LIOO
I):, II

'•II r1.r1rir1 r,
,, II
■ Ith \llll ,I l' I
1 11,IIIW u Ill ' VOi 1, 11h11 '1rJ,11flll
11 II
11,UllU ll • lrl• vl11 1l11I d '1fl llflfl
■ 111•. vlr Jlnl ,
I '1fl 1111,11 '11,,f,ld I IHI
It.I I I
I
I
p11l,1I wlrlll,
I
21. lr1mbi n pu d 'll ob 1,t'rv.i1 l.1 1, 11 •1~.l,1•, q11t• 1,1• 11,1111:c•111•rt1do 1•11 (•I .'irhol d1 • cl l•Cl!Ji6n
Paril ftn, hr1g, doblt• c llt 1•11 1•1 11ncln dl.in1.111l v. 111 1.i v<·11l.1nt1 qlH' ,1pi1rN( ' en la
pJ1te i;up ilor r li 1ut P lt1 nprl6n {J11n1•1.il(l1 h1<•1:o 1 ,1 11(•( 1011 11 1<ul1• ':>t•l y h,11i,1cllren OK,

.Ellt r nod (Inputs not u d)


I 111 r I lcJ1:l HI iii! hrq11irl IIJI ,,,
, •Ir 111111,!1
Capitu o 6: caci e con d1fere tes te

22 . u a e .hec o es o, aparece ra un O o c1assRs e


doble cl1c donde se obse a u a en a a e la

I •00 ,---,.
Rules for lris-setosa -~ i ~ ...
Rule 1 for lris-se osa
if pe al_leng = 1,900
the n lris-setosa
Rules for lris-ve s1color - con ains 1 le(s)
B - ule 1 or Iris- rsicolor
if petal_length > 1,900
_ and pe al_width = 1 .700
and pe al_le gth = ,900
then lris-versicolor
e:. Rules for lris-v;rginica - co ains 2 rule(s)
~ule 1 for lris-virgi ica
· if petal_length > 1,900
and petal_width = 1,700
and petal_lenglh > ,900
then lris-virginic a
Rule 2 for lris-virginica
if petal_length > 1,900
petal_width > 1,700
""

OK I Cancel J

En el conjunto de las reglas obtenidas se puede notar que para que una plan a sea
considerada coma lris-setosa el petal_length debe ser menor o igual a 1,9. Por otra parte,
para que una planta sea considerada coma lris-versicolor el petal_length debe ser mayor
que 1,9, el petal w idth debe ser menor o igual a 1,7 I, por ul ·mo, el pe al_length
debe ser menor ~ igua l a 4,9 .
Data mining - Mtneria de datos

5
6.3 Ca o n. 3: Predicci6n de farmacos
0

En este caso se va a predecir, segun distintos parametros Y v~r_i~bles; e~ tipo de farrnaco


(drug) que se debe admi nistrar a un paciente afectado de nnitis alergica. Las variables
que se recogen en las historias clfn icas de cada paciente se muestran en la tabla 6.1.

Tabla 6.1

Parametros de entrada

• Age: edad

• Sex: sexo

• BP (Blood Pressure): presi6n sangufnea


• Cholesterol: nivel de colesterol

• Na: nivel de sodio en la sangre


. K: nivel de potasio en la sangre

Fuente: <http://users.dsic.upv.es/~cferri/weka/CursDoctorat-weka.pdf>

En esta tabla se observa que hay cinco farmacos posibles: DrugA, DrugB, DrugC, DrugX,
DrugY. Estos han sido considerados coma el objetivo (para metros de salida). Ahora bien,
se han recogido, ademas, los datos del medicamento id6neo para mu chos pacientes en
cuatro hospitales (los ficheros estan en la carpeta practica_tres_farma cos perteneciente
a los recursos en lfnea de este libro) . Se pretende determinar el mejor medicamento a
probar en cada uno de los nuevos pacientes.

Este es el modelo predictivo disenado para resolver el caso.

r;-·1 [i] ~
~
\.i:¥
jD r u g ~ Table ~ Drug

@ - -..... ®
Type
c~
Drug

Drug

Sexx BP X Cholesler Nav.K

Figura 6.3 Modelo para predicci6n de farmacos

5 El planteo de este caso (a excepci6n de su desarrollo) ha sido tornado d . ., ~d rri/'llf',;J/


cursDoctorat-weka.pdf>. e e5ta direccron: <http://users.dsic.upv.es/ e

j
L qu v I rt 11 ll P r l \ 1 n tru11 ,, l 'rn d1 1 lc t 1, I '>lf' ll il' nll' :

nw t I 1H do v,11 . f 111 , I H't: ol qu •lo ~n


('I) ( I. l) (.'<,<] tn l l ll't.1, lp 1r ( l'I I lllld V lll,1n11 l'll
l,11 lilvu( n t c1 ,..,'ltt1l1 k I rlll
I 11) .

,, - ~~

- -- - - - - - - --.

Lill l~ MIN[ I IAI I llAI () lllll10\111 11, I Ire ! 11111 I O \I HU 1n

LIBR MIN[ RIADf l"'lAr R\llbro\pr r ll 11 n1 r ir,1 co \DRUOln _ _ _ _ ll

,0.0', 68,tlLUQl
O.Ot,0944 dtu C

II ,p c1fy numb, , urn, Id

0 *11 ()J lOllUnr11t1ht11Cltt

p ce Non l l I n I 'J.llphl ' Floth

Invalid ch r ct r • [)I c 111 R, pl C Wllh I


Encoding [stt m d I ult ]o elm ii ymbol ( Ir ni ti I ull,.. l

Oeltmlt r Lint 111 c n tor lypo

Space ["'1 Comm I J T b 011111t 1

lngl quoht [ DI rd

[ Non-printing ch r cton; Ooubln QUOl •. [ I C Ill.I


U Allow multiple bl nk dollmllors

FIiel Datil I Flit r 1Types I Annot lion


OK r Cancel J
7
contenida en el archivo, escoJ·a d
t
e la
lt bl y lu g conect lo con el nodo Var. File DRUGl
n I nodo T bl y presione el bot6n Execute. A part;r dn.
00 r istros de pacientes con alergias, cada uno de I e
mp (p r m tros) coma edad (Age), sexo (Sex), presi6n arterial (Bit
t roll, sodio (N ), potasio (K) y medicamento (Drug). '

l'!'l[lle l;d11
--·--~-.
I- .c

(5
X

Cz>] 1

Ao j aerj
22 F HIOH
BP ICholelleroLJ
NORMAL
I0ruv -
0 036 drugY
50 F NORM/IL HIGH I:: o064 drugX
20 F LOW NORMAL o 011 0 069 drugX
36 F HIOH NORMAL 0.575 0,037 drugY
18 F HIOH HIOH o 0es 0.024 drugY
57 F NORMAL NORMAL 0552 o021 drugY
70 M HIOH HIOH o s00 o oeo drugB
47 M HIOH HIGH 0.563 0 054 drug.A
65 M HIOH NORMAL 0.864 o 025 drugY
ORUGln
64 M HIOH NORMAL o 740 o035 drugY
58 M HIOH HIOH 0,769 O 040 drugY
23 M HIGH HIOH 0.534 O 067 drug.A
72 M LOW HIGH 0.547 0.034 drugY
72 M LOW HIGH 0.505 o 075 drugC
46 F HIGH HIGH 0.774 0 022 drugY
56 F LOW HIOH 0.849 o073 drugc
16 M LOW HIOH 0.743 0.062 drugC
52 M NORMAL HIGH o 550 0.056 drugX
23 M NORMAL NORMAL 0 785 o 056 drugX
40 F LOW NORMAL 0.684 0 060 drugX
T blo Annotellons

3. Para saber cuales son los medicamentos (D ) ,


la categorfa Graphs y seleccione el nod . r~bg ~as usados en los pacientes, vaya a
. o 0 1stn ution p
File DRUGln, tal como se muestra en I ti ara 1uego conecta rlo con el var.
a gura.

,!! [jj]··
:
~-1·····1
rnH Ii :
I I
!················.J
Table 1

®
DRUG1 n

Drug
/
rlllilulo 6: Apll, ,IC lo1wr. ( 11111llf1•11·111 .. ,, 11•1 111( ,I.,,.. 1111111·1 j ' (Ip cl,1111•. 1:,,•..,

4_Haga doble cite en el nodo D1 tribut1 n drug. Ln I, pr pl ,1Jr1d I ilPc.J 1,1•lc· ti rw Drun y lo
mismo en la prop1edad Color. Lu go pr, ion , I bot6n ~x •c.ut •. f n ,c• ,uld,-1vi~Lnli1tlr1.
la informaci6n d los m die m ntos qu , s I r , l, c.1 101, pc1 i •nl •t,, t I omo (,t'
:.J

muestra n la figura sigui nt n dond s obs rva qu n I l rncy rf I cJ, los ..,o
el medicamento drugY se aplica con mayor fr cu ncl (91 c O',) y •n olro d O' ,c.
aplica, por ejemplo, el medicam nto dru X (c:4 c o<,).

drugA
- - - ' ' - = =..~ ,- ~ Proportion
- - - ~ - - - 11,',
.., I
drugs
fl,O
drugC
drug)(
8,0
21,0
drugY _ _ _ _ _ _ _ _ _ _ _ _ _ _ __
◄ 5,S

Drug
drugA ■ drugB ■ drugC ■ drugX LJ drug'(
1
Table Oraph AnnotaUons

OK

·
5 Ahora selecc1one eI no d o Type de la categorfa Field Ops .y arrastrelo al panel de
. desarrollo para posteriormente enlazarlo con el nodo var. File DRUGln, ta 1 coma se
muestra en la figura.

~
/ Table

@ ________..,... rlf=::\1
~ \WI
i Type I
1 •••••••••••••••••

Drug
H dobl . y m trara una entana en la cual debe deterrninar 05
ntr i mo edad. se o, pres,on arterial, colesterol, sodio y calcio
c1on I par· metro de salida Drug (que es lo que se desea predecir) ,
l cit n I boton OK.

Check C' ·et;,o


, 1n
In
None , ,n
None , 1n
None :a In
None
Type
None ' '"Out

View unused field selllngs

Format Annotallons

OK [ia~ L APPIY

7. Afiada el nodo CS.O (este se halla en la categorfa Modeling). Luego, seleccionelo \


arrastrelo al panel de desarrollo para unirlo con el nodo Type, tal como se muestra en
la ftgura siguiente.

rm,
~
/ Table

@ -® Type
► 1@
i Drug• ••
l ••

Drug
apitulo 6: plic-acione on clifc•rente II enir,,s <IP 111hw111 <IP <l,11os

8. Para generar el modelo seleccione el nodo cs.a llamado Drug, haga clic d
ho n I r
y seleccione el bot6n Execute. Esto va a permitir generar un diamante con I nombr
Drug, que se ubicara en la parte superior derecha de la pestafia Mod Is. Un st
diamante con el nodo Type, tal como se muestra en la figura.

fiffll
~
/ Table

® -~@
Type
-----►~@
Drug

,c~
; Drug
Drug

9 Ahora determine la precision del modelo generado. Para ello, selec~ione el nodo
· d e Ia ca t egori,a Output, arrastrelo al panel de desarrollo y unalo al nodo
· Analysis
diamante Drug.

~
/ Table

® ----►~@ ► ~
DRUG1n\ ~pe~ Drug

& Drug
c~
Drug An lysl
Data Mining - Minffla de

10 aga dob e c ·c e e
v sua 12ar ta orecisio de
ce ac1eri:o v 3 5 ae err r.

Anatvs1s

Anatrs1s Annotations

11. Para mejorar los resultados obtenidos por el primer mode lo creada, anal1c lo~ d ltos
Primero observe la relaci6n que hay entre las parametros (se o, pre ion arternl,
calesterol y medicamenta). En funci6n de esta, selecciane el nada Web de lci cc1te nJ
Graphs, conectelo con el nado var. File y haga dable clic en el. En la prop1ed.id Field
(en la pa rte derecha) de un clic y aparecera una ventana en la cual debe c,elec iondr lo
parametros que desee vincular. En el caso de la figura s1guiente se han sci cc1 n;,d
las parametros sexo, presi6n arterial, calesterol y medicamento.

~ Threshold Yllues are Abso1u1a

•J Web Directed WVb

Fields Sex
BP
Cholesterol
Drug

D Show true flaos only


Line values are IAb801ute ......,
~ Strong llnk9---•=re:-::h:-11Y1--:-,-, ------..J...
S
,____, Weak 11n1ca are hea'iler
-
Plot Opbons Aopear1nce
OUIIJut Annota11ont
C2EJ ► ErtcuJe
1. I.)

12 . Hag cl1c en el bot n p I , I en


n E ut . E·t
hara que se muestr una ent n . En el
I I mf f ma
aquella que el m die r Iento \a 15 inu n

13. Analice ahora los valores numericos de Nay K para ver si ha una relacion significativa
entre ambos parametros. Afiada el nodo Plot de la categoria Graphs, seleccionelo y
arrastrelo al panel de desarrollo para luego unirlo al nodo var. File DRUGln, tal coma
se ve en la figura sigu iente.

®
DRUG1n

c~
• . ..... ·1 Drug

Drug
Ml
.......1v.
- 1 . I
...........
ion N

vn 1 #K

T I
Anlm lion

Overtay IYP• • Non,


Smoolher
Function

Output

Cancel
Annot hons
----=,,
15. En la figura ubicada en la pa rte inferior se puede advertir que, cuando la relac16n Na/kes
baJa, se les receta a las pacientes con rinitis alergica el medicamento drugY. Par otro lado,
cuando este nivel va en aumento, se les administra otros medicamentos a las pacientes.
Debido a esto se puede crear un parametro derivado de la relacion antes mencionada.

T bl
o,o

0,07
•• •
~ .. . .. .
-·····~, .. •• ..
.. -..
.. -~
. ...
.
• ' •

-
, • o•

.. . ...••
• • •• • • , 0.
0,06
• ., • • •• •
.. •• •
0
wo,os
:• ... •
•o

(boo
0
o
•... • ... 0 00 0 oO 0
~ 0 0 ° o ~o
aco
o 00
o
o '
o :
o_0
<900
4\ 0
00
000 ~ 0 00 0 ,
-0 0 0 o0 Oo O 0 o '
~0 0 O o 00 ~ 0 0 0 OCb Q
0 00
0,S
Nav K 0,6
0,7 0,8 0,9
Oraph , Anno !tons Ne
I 1tul r n dtf I C'nl s t 111<, c, de m111C'ria dP clatos

1 n' I nodo Derive de la categoria Field Ops, col6quelo en el panel


ct lo al nodo var. File, tal coma se ve en la figura s1gu1ente.

® -~
Type ~ NO

c~
DR 01 n Drug

[@l
I Derive I

Drug Nav. K

16. A continuaci6n, haga doble clic en el nodo Derive. En el Derive Field coloque el
nombre Na_k. En la propiedad General Functions de la parte derecha hay el icono
de una calculadora; haga clic en este y coloque la formula que se muestra en la figura
siguiente.

Expression Builder - Derive : Fo .


----~-- ---------
.

t• I~

1-r-IGeneral Functions ... ~r- 'l□ Fields ...


,__ Function
1s_lnteger(ITEM)
I Return
Boolean .__ .. Age
Sex
Field
Integer
String
Storage

ls_real(ITEM) Boolean -'"


ls_number(ITEM) Boolean BP String
ls_string(ITEM) Boolean Cholesterol String
ls_date(ITEM) Boolean Na Real
ls_time(ITEM) Boolean K Real
is_tlmestamp(ITEM) Boolean Drug String
ls_datetime(ITEM) Boolean NA_K (Unknown)
to_lnteger(ITEM) Integer -...
is_lnteger(ITEM) .
Returns a value of true if ITEM type is an Integer Otherwise, returns a value offalse

~ Qheck expression before saving

~ 1
1CanceQ
v(/ ChJiCk Help J
,
,1 ii, rl lI IllJ
I

I1 I I I llll ( l1 I 11 ·I

r rur

nd

hi "
CgpyNod
X ll h!f

19. Ubique r> n I pi!nPI d (fr '>ilrrollo, lir1g,1 cl1c rl1•r1•th >y •,1•l1•rc 10,w l.i npr 111111 1.1•,11• /\',I,
, parr_n r · un nw vo nodo ( n r•I p.-1111 I cJ 'd' ,Hr >llo, •I c 1,ll l111•i~o l1•1iclt .'1q111· cn11 1•11,ir
c.:on I nodo dr-r1vt1do Nr1 K. llr1g,1 clobl<· lie r1I norlo lyp,• y 1, 11 ,il,1, 11 1•11 l.1 pr••,1.1 11 "
0

Annotation, DC' ,pu '',, <·n C 1-,1 orn <oloq1w I yp,, d, •r 1v. 11 lo. Pri ",If 111 ,, , •I ""', 111 /\pply Y
I J(>go fl bot6n OK. 11 rt •,ult rlo ', •r«'i c.ornn In vl•,10 1•11 l,1 f11',Utt1 •,in1 111 ,,i1, •.

'" \
zo E segu1da, er Lin nu vo m
de la relac16n /K. P ra lloI
I e o unalo con el nodo Typ
camb1arle d nombre d Dru

Aul • u

Ou ut D

u g

@ oise • Smple El
DruLdel1Y.l o
Favo~ • Accuracy
E1,p cted noise ( ) 0 •

Fields Model Costs Ana~e

21 A continuac16n, haga clic en el bot6n ExecL t lo qu \; a , 1 ra


con el nombre Orug_derivado (vease la figt.ra i u1 n ).

~~
I Drug

DruCJ_denvado
· d dat s
134 Data mining - Minena

n n In l ~
22. Arrastre el diamante Orug_deri ado

L
@ :
:
. Drug d IIVhi

pe_denvadoj
···················-···-

Drug_deriv liO

23. Una vez generado el modelo, afiada un nodo An ly is p ra st 1l 11\ 1 1'1 f'1'l11'nt.1
de precision del modelo generado al admitir una nu variabl . P,ll ,l I ll1' , '11'11 'l'•1
el nodo Analysis de la categorfa Output, arrastrelo al p n I d d '~,111 II , \ 11 111\ ll' 1,
con el nodo diamante Drug_derivado (vease la figura i ui nl ').

@
Drug_deriv do

®---..
Type_derivado c~

Drug_derlvado An llV· I'

24. Para saber el porcentaJ·e d .. ,


• e precision del modelo, ht1gc1 cioblt' c 11<
Y presrone el nodo Execute (vease I fi . .
a gura s1gu1cnt ').
En el caso de la presente fi gura se
observa_ ~~eel modelo ha mejorado
su prec1s1on con respecto al .
primer
caso en donde esta era del 96 5 o/c
oil ,l All
Ahora es de 99,S %. Eso quiere dee;~
11111
que los modelos pueden m . . r-1 Result• for output n11 1d : ,1
1 11111

se srgue analizando la 1· nf
eJorar s1
.,
ormac,on y
l I C'o mp (ll lnr1 !~( I )II ~
111 1,\ii
l'l 'I
b
pro ando otros nuevos. Qlltlrl I 11 'I
W111nrJ
I ot ii
/

apftulo 6: Aplirarlorws con cliferenle terniras de mlneria de datos 135

25. Para saber los valores del nuevo campo generado, vaya a la categorfa Output y
seleccione el nodo Table . Arrastre este nodo al panel de desarrollo y conectelo con el
nodo NA_K, tal coma se muestra en la figura.

IBl
l\!::£/l ~
!___NA_K __; ~ F::\
'dij
Type_derlvado

-
~
Table

26. Haga doble clic al nodo Table y presione el baton Execute. De ese modo, podra
visualizar finalmente el nuevo dato generado.

t)Q.enerate

Age Sex BP Cholesterol Na K Drug NA_K


23 F HIGH HIGH 0.793 0.031 drugY 25.355 ....
47 M LOW HIGH 0.739 0.056 drugC 13.093
47 M LOW HIGH 0.697 0.069 drugc 10.114
28 F NORMAL HIGH 0.564 0.072 drugX 7.798
61 F LOW HIGH 0.559 0.031 drugY 18.043
22 F NORMAL HIGH 0.677 0.079 drugX 8.607
49 F NORMAL HIGH 0.790 0.049 drugY 16.275
41 M LOW HIGH 0.767 0.069 drugC 11 .037
60 M NORMAL HIGH 0.777 0.051 drugY 15.171
0 43 M LOW NORMAL 0.526 0.027 drugY 19.368
1 47 F LOW HIGH 0.896 0.076 drugC 11 767
2 34 F HIGH NORMAL 0.668 0.035 drugY 19.199
3 43 M LOW HIGH 0.627 0.041 drugY 15.376
4 LOW HIGH 0.793 0.038 drugY 20.942
74F
5 NORMAL HIGH 0.828 0.065 drugX 12.703
50 F
6 HIGH NORMAL 0.834 0.054 drugY 15.516
16 F
7 NORMAL 0.849 0.074 drugX 11 .455
69 M LOW
8 HIGH 0.656 0.047 drugA 13.972
43 M HIGH
9
0
23 M LOW
32 F HIGH
HIGH
NORMAL
0.559
0.643
0.077 drugC
0.025 drugY
7.298
25.974 ..
Table Annotations
OK
11 i, h" 111 'I'"' ,, I 11y • w, r11ud In rn r1 r dfls nPuronales y lie
n1p1111u.1 ,011', guea
d 1111 j I' Ifill '

____
I I ,,11 I J • ll l
II I I ti Ill ll j' I II I

__,.. ~
Drug
_ _..,. [C\J
lmiu NJ J,V,J

I bl•
Dtug Mil~IS

•\1111111!:,u, 11,lt<d .t,11,1 n I 1 11µ, 11, d cl p d rd Ir sl con un modelo de red es neuronales


II 111111 •101,111, 1w ll , r •,ult,1d . rn u, nl 11 la pr clsi6n.

ti
1 ' • u 1 ." 4: I 10 1 le ma h1. t r (ca o mpleado Memolum Web)6
l l11.1 ,•1np1 t•' l Ir- ~uftwnr P ,r, Int rn t II m dc.l M molum Web quiere extraertipologfas
I1 1 111 I1 11 I
1

, 11'1 1 d (Ill
1
' '1 P I l • f 1 I bj t Iv d h r un polftic d personal mas
g1 llp , I
° , fun dam entada Y
tj
n Vol~
I 1·. ,, ,11 dil , . q111 1 • ,
1, 1'{ •n de la
11 1 d fi has d los quince ennpleados
1•111p11 1'. l 1, lll

1
11t--l<h 1 1,t11•li lu 11w ti 1 11 u, .,.
t " .. 1d11· •,I ••.1 c ' •.iclu < ll

I I I,, It lh I I I h I' I I I pdf'


<1 i, I hlu lt1111c11l11 rt,, t•,,.. Ii t we~a
.. J 1•c1 Ion: I111 oociora .
P:// 14 t!r<..c.l<.I l1pv,f' ~/~ f rrl/wek;i/Curs
Coe e: sI e e er coc ra aJa o al me s s lo a a ca e el o g de la empresa).

,e e u a asa ale 1la 2 o -o ia.


Sind1c · s1 r e ece al sI Ica o 'e .o c·o a-io e -e e .
BaJas/Ano: medra del n · me ode ajas O 2- 0.
Antiguedad: aritiguedad e la e P'esa.
Sexo: H si es hombre y · si es

Los datos de los quince empleados se e c e tra en el d 1rectorio pract1ca_


cuatro_agrupac16n_empleados e plea os. x- Loque se n enta hacer es extraer
grupos de entre estos quince emp leados. Con ese fin se deben tomar en cuenta
los siguientes pases :

1. Como ya se ha venido desarrollando en os e1ercic1os an eriores, lo primero es hacer


la conexi6n de los datos. Para ello, seleccione el nodo var. File de la categorfa Source.
Luego enlace este nodo con el archivo que se encuentra en la carpeta practica_
cuatro_agrupaci6n_empleados que forma parte de los recurses en lfnea de este libro.
Tambien active el check Tab en Delimiters, cliquee Apply y luego OK.

. - -..
.
..I.- -

~-· ·_ - .·.. - "",-.,

~ • Re'res ,

~ OID.AZA_LIBPO_ E EDA-OS r rac• ca_cua _agrupac on_empleadoslemplea

File O:\DAZA LJBRO MINERIADEDATOS\11bro'lpracbca_cuatro_agrupac1on_empleados\emplec


- - ~
'--

IEJ Sueldo Ca.sedo Cache !il.JOS Alq/Pt:op Sind.ic. BeJa.s/Ano


l 10000 Si Ila 0 Alquilei:: Ila 7 15
I
®
empleados ~
!
I
2
3

20000
15000
Ila
Si

., Read field names from tile


Si
Si
l
2
Alquilei::
Prop

::::; Spec11'f number offtelds


Si
Si
s
3
10
3
H

Skip header characters. I Off EOL comment characters. I


Str1p lead and trail spaces: '.v None ,,... Lei! Righi :::;. Bolll

Invalid characters. ,!,J Discard O Replace wrth


Encoding: IStream default • ' Decimal symbol Stream default •

De ers - - Lines to scan fortfl)e 501: :


0 Space 0 comma ~ Tab ~Quotes- -
Single quotes IDiscard ,. I
@ Newline D other
,=====::::::
0 Non-pnntlng characters Double quotes _Dl_sc_a_r
d_ ~ _•__.j
D Allow mulllple blank delimiters
FIie Data FIiter Types AnnotaUons
!,µply J[ Reset '
cancel J
Mtneria de datos
Data mtnln8 -
138

Type que se encuentra en la categorfa F·


· ne el no do ielct o
2. A continuaci6n, selecc1~ F·le que tiene el nombre empleado.txt. Despue , o:
I rch1vo var. I • s, c",
Y conectelo cone a Type y en la propiedad Direction ponga none a la nurne rac1 ~t•
dO
doble clic en el no . te cambie de nombre aI nodo Type en la P 0,
·1· ') Postenormen , , 1· esar:
(esta nose utl 1zara · arametros_in. Luego, de un c 1c en el bot6n OK -
Annotations y en custom ponga p .

@I
---
Clear Values Clear All Values

Values Missing Check D1recii00


Field
Range [1 ,15) None (S) None
#El
, Range [8000,500 None ~ In
I sueldo

®
arametros_ln\
00 Casado
A Coche
Hljos
09 Flag
09 Flag
, Range
SI/No
SI/No
(0,3]
None
None
None
~ In
~ In
~ In
00 Alq/Prop 09 Flag Prop/Alquil... None ~ In
SI/No None ,. In
8
~ Slndlc.
Bajas/Mo
AnUgOedad
a.Flag
, Range
, Range
(0,27]
[1,20]
None
None
~ In
~ In
~ Sexo a.Flag Mil-I None ,. n

@ View current fields O View unused field settings


,---
- TYP_!~ ~at_ ~notal!?~s
[El [ Cancel j fiesel

3. Realice la agrupaci6n. Seleccione de la categoria Modeling el nodo K-means Yiueg:


col6quelo en el panel de desarrollo para conectarlo con el nodo Type llarnac:
parametros_in, tal coma se muestra en la figura siguiente.

®
empleados.txt
ai..@•+ -■+
-A+

parametros_in
< ap1t11lo f>: \ p llti11io1 u•,r1 111lli1 1•1ri 11ti .. 11 r 11l1,,•, 111• 111l111·1l11 d 1 d ,111, , I ,'I

4_El sigu1ente paso es ddr dobl cl1r n I nodo K MP,m ,. I uPgn, ',PIH c10111° lo1 r .ti ii 1d,H I
de clustercs que s sp r, forrnar. En ..,t ~ caso, pongr1 c 11 Nlllnlu•r rJ I , lw.t1•1•, Id
cannd d d '1 y haga cl1c en l xc urP.

KM •ns

I I)'JI I 1
~
Model llJlrl[ • Aul11 ( U llllll
"'] Uea p r1111onn11 rt Id
Nurnhor or clue! r
◄ 1:1
l~i
K·MB ns 1
I uor11 r,1111 di I r11 u n hi
I Show r lu I r fHD•lrnllY
C.lu I r I hfll ., blrl11u i tJur,11,11
L b I prullt [r1us1er
Opllrnl21 ! Bp et.I • 1Mlir11urv

Frelde Modal r,per! Annc,1 lion I


OK [ ► flt cull! ] l c ,1nr I IPlf' [ l I j

5. Aparecera un diam ante con el K-Means. Selecci6nelo y cone lelo ,ii nodu I yp1,
parametros_in, tal com a se muestra en la Figura .

~ I M tn

-----►► @
empleados !xi p 1, metro _In
7. Afiada un nodo Table para poder ver d m n r m
cada uno de las registros. Para ello, I cci n d I
conectelo con el diamante K-Means, com

@
empleados M pa, rn hos_
~--- /
141

8· Haga doble clic al nodo Table. Apa rec era, una venta
la cual se observa que el tercer (3) y el na como 1a de la figura sigu1ent<-> n
cuarto (4) · ·- -
registro se encuentran en el clu:; (!r .J .

d EI 1
2
HIJOS Alq/Ptop
OAlquller
1 Alquller Sf
BaJas/Mo l Antigueu.id 8e10
7
3
15 H
iv -V
r:luster-1
p

3 3 3M ,,,11;tter-7
2 Prop Sf 5
4 4 10 H r.lrJ~ter-3
1 Alquller No 15 7M
5 5 r.llJStEr '3
0 Prop Sf 6H ctu-:.ter-3
6 6
0 Alquller Sf 3 16 114 r.,lu~tr:r 2
7 7 No 0 Alquiler
8 8
Sf 0 8H r,h;ster- 1
Sf 0 Prop Sf 2 6 r.lrJ~t.,r-2
9 9 Sf 3 Prop No 7 5H r,1,Jster-3
10 10 Sf 2 Prop No 1 20 H ti s er-1
11 11 No OAlquller No 2 12 M r,l•;stf:r-4
12 12 Sf 2 Prop No 3 1H r,11;-ster-3
13 13 No OAlquller No 27 5M cl Jc:ter-4
14 14 Sf 0 Alquller Sf 0 cluster-2
7H
15 Sf oAlquller No 3 cl!;-;ter- 1
2H

6.5 Caso n. 5: Agrupamientos en relaci6n a las ventas


Este conjunto de datos contiene dos informaciones: los atributos de los vestidos I las
recomendaciones correspo ndientes a cad a uno de ellos, de acuerdo con sus ventas. Las
ventas son monitoreadas de manera alternada a lo largo de la semana. Con respecto a la
informaci6n del conj unto de datos, se tienen estos para metros: Style, Price, Rating, s·ze,
Season, Neckline, SleeveLength, wa iseline, Material, FabricType, Decoration, Pattern,
Type y Recommendation . Los detalles de cada uno de los atributos antes mencionados
pueden ser hallados en la pagina web <http://archive.ics.uci .edu/ml/datasets/Dresses_
Attribute_Sales#>.

Dresses Attribute_Sales Data Set


Download. Daja Folder Data set DescrtpUon
recommendation• according to 1h•11 ule• Salt• '" rnoncor~ I
Abstract This dataset contain Attributes of dresses and th " " C

Source: tff2 @· s,na1I com. A.r umers y. Slu~


pot @ · omail com ideel ahme
Muhammad Usman & Adee! Ahmed. UjffiQD mads

Figura 6.4 Atributos de los vestidos


Fuente: UCI Machine Learning Repository.

b ntdo d I P 1 11 h p // w It xpress.corn/...

...._~-·
- -

,,,.,.,

Pull Your
Look Together

Sl'l0P

F u d I• s,r Ali pr •ss


Fu nt

Para analizar la informaci6n de un vestido puede ingresar a la siguiente d1recci6n


<http:// w aliexpress.com/item/2013 -Ladies-Celeb-Even Ing-Fitted-Formal-Party-
Lad1es-Pencil- Bodycon-Dress-D0076/ 881530990.html>. En ella se encuentran los datos
de cada una de las categorias mencionadas en este caso.

--
A ~ x1>ress C

~•.
• . 35~, Ladles Celeb Evening Fitted Formal Party Ladles Pencil Bodycon oresse
; j 95.6% clbU'f r en1 d 11',s P•Odu 65 -.ote., 737 ord•

.

I
.. us $13.77 Ip, a '

..t I
·,
__
~ - "'
._

• S M L 'l(L )Q(L

~-
.... ' -- .,.'
' -
,I
-...-- • ...,
Free &hipping to Peru \,\3 Chin a Post Re I terell AJr MJ<I •

Figura 6.6 lnformac16n sobre los vestidos


Fuente· Ah Express.
Capituto 6: Aplkaciones con diferentes tecnicas de minr>ria de dato<,

Los datos de este problema se encuentran en la carpeta pr;lctica_cinco_paper


perte neci en te a Ios recu rsos en Ifnea de este Ii bro. Un a vez prove fdos de esta inform ac Or,
se puede pasar a constru,r el modelo de clustering, para lo cual se deben rea izar os
siguientes pasos:

1
_Cree un nuevo proyecto Y guardelo con el nombre de << ✓es'ido_c Jster_hbro11. L..1ego,
aiiada un nodo var. File que se encuentra en la categorfa de S01.;rce en el pare de
desarrollo y enlacelo con el archivo que se encuentra en ,a carpeta l1bro p'"actica_
cinco_paper.csv, tal como se muestra en la figura .

.,,· Read eld narr es fl !T, 1e


Sl<ip header t•"3ricterr. rr----::T

Strtp lead ano Ira I spaces £,, c e


Invalid characters

alos_de_vesbdos ~s Encoding
Deimllers - -

;:: Space ~ Comma :]Tao


~ Newline D O!her
;:: Non-pnr.:.ng charac:Brs
0 .A.ltow mu~pte b an de --e 5

Types

do ar ~ le datos_de_ e dos.
tiene el arch, ,o Para ello, de la ca:ego_ ia Outp ·al
2. Ahora analice los datos que ,
seleccione el nodo Table y conectelo con e1 ro . -
como se muestra la figura.

,-------T-,::.:-~-~---
:~
abl:.

®
datos_d e_ves ·dos cs .
n I
II
: ;,\phcaciones c d"f
I C'rentes I ecni<'as de mlneria de flat os
on 14 5

5· Para formar, los


t
clusteres, de la cat , .
egona Modeling seleccione el algoritmo k-M ea ns
Luego, conec e1o con e 1 nodo Ty II ·
. . pe amado Type cluster tal como se muestra en la
figura s1gu1ente. - ,

@------~
"'"-''-'"" ' " ~
®• ►
-----►► ~
Typo__ clu~ter I Me 11 8

6. Haga doble clic en el nodo k-Means, en Number of clust ers co loqu 3 y pr ·i n


bot6n Execute. A partir de esto, se generara un nodo diamante con I misrno n )mbr
K-Mea ns.

• Auln u tt1m
Modul rwm
,.,1 Use par1tllon!'d d I I
Numb r □1 r lust r ~1:
l J Oen rah> di· tanc P n Id
-Means I l BhoW clu t r proxlnlllv
•;11 1nu Nilltlb r
CIU t r l,1L1ol

[. hOI pn1 ftv


[du t r l
'Ip d • M 11111,v
upllmlz

J\1!1101 111111

I I )II I
I dt nunt I< 1\1 ,Hl '1 11 •,r 11•1 (I ,, Id, 11111, I 111 ti,, 1,,,, \ 111
, 1ll,1
I p.11 i v r I cIu l
q uc ' < h, 111 'I \(
r< ' I • dI ' I 11 I ' I I I I I ' ' 111 I II. 11 IJ II I \11
pu dt bs rv r qu I1 m 1 r can t 111,1 rl cI< It 1 1,, t ,
.;J f , '11, II r' I \ I I t I l 1 11 1 I I II, . I "I I\
l,1 n, n r rmtidad d I m1 m r < ,t 111 <' 11 1 •, 1 111•,1" 11 ', ' '

t<-Mo n1

1 lu ter 1 14 record

8. Para determinar en que cluster ha Lrlld ,1d,1 Ull dt• In' lt'tll',li11• ... 11•11111 11'
1 1111
nodo Table de la categorfa Output, arra lie lo JI I .i1wl dt' dc",,lltnlln v, ,1 , 11 •1 1t·li •'11
el diamante K-Means. 11

dalos_d _ve lido

lyp1 _tlU I r
I I

9 Para I ual z I \}\ I • Il I . I


p rt n I • ' ' 111 1 ' \ l \
s
- - --~~ '
~ - -; '\· ... J-.

En el co )m c ce s c~~ s :e -~
2 oerterece a s·e · :
c uster 3. De a s
a comoletar os 5

imaginaria e!Tl. resa es _, ,,


ha avrrertado emg1
a la absorc·o e la
preterde sa
Al resoec. o as ·ar"a es e-
la em,.,resa so

• Sueldo: s el a- 3 e ~ 5..

• Casado: s
• Coche: s1 iere e

7
El ante-a ;;.e esce cas ,._
148 Data mining - Unen de dato

• Hij os : si tiene hijos .


• Alq/Prop: si vive en una casa alquilada O propia .
• Sindic.: si pertenece al sindicato re ,olucionario de Internet.
• Bajas/Ano : media del numero de bajas par an
• Antiguedad: antiguedad en la empresa.
• Sexo: H: hombre, M: mujer.
• Estudios: Obi: obligatorios, Bae: bachillerato, FP: forrnacion pr
Doc: doctorado, maestria.

Los datos de las 40 empleados se encuentran en la car


err6neos_faltantes que pertenece a I0s rec r _ n I ne d
en estos datos es que, al haber crecido de manera ertl in am nt
debido a la conversion de datos en la fus1 n, ueden t n run num r
datos faltantes o erroneos. La cuest10n cons1ste, ent nces, en int nt r tr
de este conjunto de quince empleados.

Para resolver este caso, se deben realizar los sigu1ent s pa

1. Lo pnmero que d b hacer es conectar las datos qu s ncu


antes menc1onado. Para ello, aya a la categona Sourc ,
y ub1qu la ru a n cu 6n Despu s, pon un ch
Delimi rs.
l,It " I I fI I

11
ii VI ,t I illl II I I 11 I I , , I ' 1 II I ti I I •I I I I 'Hit 11" 11 II I 'I I Ii I I It •I II j I I,.,, I I I ",I, I I
1 1 11 I
l I, ' I V I I II, 11 II 11 It I,, I I I 1 1,11 1II 11 I u 11 ,1, I 1 1 1 1 I I, ,I ,11 1 II• 11 r 11,r •I •I 1

I I ii 11 ,,d1I111111 1, 11.!11111111 I 11111 1


11 11 ,ii "''"ll' 1,111,11 1,

,, 1,.,,
1,,,,11,
11, ,,,
h 1ltlll11(,, ,,
II llflflf lu '"'I "
.,,,
ij (1J I ifl
I AJl11111 I
Jlll1t1 I h, I i,,.,, i
I 11111,11 I Ill,,,, ,,
1,
II """''' I
1111111,,,,
II
1"''"' 1111
I1 11,,,11,111, 111 I,
I◄ li1JIJll1, I
I, 0111,w, bi .,.,
I IHllllflll I 1•1 .,.,
Ir
Ill
n1,111, I h, ,,. ,.
1, ""''"' 1111I
I'"""
It•,,,,,
,,, ',,, flt
,11 41111,1, '"· ,. 1''', ,,,
I t,I

3 Par a cl n,ii I/ rl r '.:, I Io', cL d n . 1 ·',I {11 1 1 1Jr , 11 i I1•11J 1,, / ,1 /, 1 , , I, 1 , , ii 1, I!, 11 ( 1 , ll J 111 1• . I ·, 1 1, i1 1,
nodo D, tr1 Audit I/ ( Oil(•( 1,,1,, ( ,,,, r•l ,,1,dr, 1•r,q,l•·i1d1,•./l 1i(1 lu .,,, ••• , 11 ,1:,1 tl1,l,l1 I 11, ,,
el nodo Data Aud11ylu1•v,r11J11, 11, 1•111•11,,,1 ,11 J 111111• I 11 • .,, 11,.11,1•1 ,, , 11 ., ,,, , ,,,, 1
11
ventana coma l,1 qur- r;c• r11tJr".lrd 1•11 I, lt~'.'H" .1p,1Jl1·1,t1•

En e-:ta ;entana ,;,:; pur_:d,- rJL'.rr /,If 'l 11• 1-r, 1 ·1 1 011,1 ,1 , /·lq/l'r 1 ,1 1 ·II 1 11 11,/Jt• l I,, l,,if, •r
40 carr pos llerros -;ok) h,; f !,/, rr,,,. 1,.,,, ,~ 11• 1 r I l 1 ,,rr1r,t, I .lwl,,,. ·r, tl1,r, 1,, rl,.ti,,
haber 40 dato~ lier O', ',<Jlr.1 h,, / ~,,
. Aho, d tect I dat s que no o
P n I d d _arrollo un nodo Plot ue e
con t t nodo con el od ar. File e
f1 ura siguiente.

11 F1 I

5. Haga dobl clic en I nod Pl t


Y sus anos d tr baj 11 1 '
haga un clic n I b t 11 E

1 II
qu n c;e rt>I ciona con r -pecto a
ontr st con lo otro

0
• E-tud10

••

.[•
es c
erP
C

• euni
bl

- 0

0 L+----,------r-------;--------:~
0 100 0 0 .oo 000 0 000 00 000
urldu

ph Arn I ll n

. A regue un nu vo nodo Plot, CI n I c; V,1IO I S cl LI ti Ii lf y hd l ti 11 Ii l 11 Ib t 11

Execute.

B I /Ano 1lllll

1lllll

• 111111 ,11011 [
Ill I

N 11
V Anlt ll d
'llllllllfl I

t l lltH tl1\II

· Pl' I 111
f'lol 1111011
1111
ll 1111 I
I 11 l.1 ... n1111d.1111-;111.1 •,1• p111" I1• u I 1,' 11•vi11111cl1tci1
• • 1u1•11JLic·r1·t r·I.H 1rJ11 rmln•
1
J, rJ ·rn~,

tl.1111• , 11111111 d,1111 -111t1111.ilu 1 ', 1•1 l 11.il iitdl "ll 111 ' lu•, ·ll)JJli •.rJ cJ O', no Pltr•rJr.r, tr-n£,;
/,

lilt.I I ,111t1d.1d dt• 111111•, dt v, lllll 111'1-\.lllV y, !Jlll I 1tclr·, llf ( ('',dtlO Jrt (•V,1r (,r,tr• rJ ·1'1 11,
I I

• •

• •

U loin
/4y IIIIIJII !I
0
1
10 I', 20
R•lu/A o

\ I pl1

7. V11 •lv.i .i i111,1<l11 1!11111otlo Plot C011 r• .1,, v.i r1 10', cJ.ito
,m,ili 7, r
HI r r C
.i l.1 ,1111111,11 •cl.id y .ii f",t.1du 111,1t11111or11,1 I rl1• lo•, c•rnplc .ido•, (v1\ f1gur
l 11t ·g11, pu •·,10111• 1•1 liuto11 l x,, utP ,

( ,llgU

,,, • "''' ' ' fl ti


, p •r on,J soltera::,
, n CdSad ,J ·J :,uperar


••
••
• .•
' a ado
:)

~
Ct-

...
•• •
• •
••• •
Cr
••
0 100 o-, :zO '...'./
iu ldo

Or ph

8. Ahora elimine los datos an6malo:; (en Est1:: eje:rrp o, ::e rar ercortrado dos: uro con respecto
al sueldo y otro con respecto a la can dad de hiJO'.:J. Para e o, raga dob e c c e e rodo Table
y luego presione el bot6n Execute. J:..s,, 1isualizara o:; datos que con ere e arcr 10 Jesp0es,
busque los datos an6malos ; selecc16nelos ::egun como se rruestra ,a figura s g1.i'erte.

Ho 2 Pr~D :!!
140 0.-JQ, (
'~ ~
. : ...
(j•

61 3 i>rop ,= V
51J00Uo ,ir, 0 s· • I-'
J ; M Dot
1;5000 110 sr 0 Prop I?
SPrG" •? l •~ Ill Bat
51000 Si 81
23000 ,o s o,-;.-r
'1 Prr,p
f s 7
0
21-,
~,... Bat
JlOOOSI 1tll· !! t
30000 :i HI
11 20000 tlO 1;.. t
~
7H FP
t.000 Io ? ;p
9000 tlo '.) ow
,~
60001J Si Qi
Si
sr
2
0
q ..

&000 Io ·o
30000 81 Sf l l!I
2
Si
23000 No
sr 2: 7M
431JCO tlo ~ ) Ji' <P
l '3000 0 8 1)1 Sr.
21000 81 SI ·o-
1$000 SI
30000S'
81
sr -~
!
'"
10000 sr '11
40000 ,,o sr
"'

"

rd~ H

L'U

Ann I l1rn

1·. n da ah · 3 LIil nocio Tt1blC' p,11,1 µodL'I vi'>ucllitar los d 110., H,1r,,1 dobl Ii 11 11 Jdo
Table \ pr I nt ,1 boton ~xPc.ute. C 1lJP , c., 1ll,11 qut lin c ti b,1ld11 P 110 c v,,n J
· ns1derar los do r gi!>tros lirninddos d b1cio 1 quP ~011 tlnom~los .
. ·,
. ."
- -------- -
,llnrl l I
IEI Sueldo I
l - ttol och r11110· IAIQIProiif
I 1 13000 No SI OProp
I
2 --...-- -2 32000 Sf No ') Prop
(I
No
[jjJ 3 12000 No No 0 AlqUIILH
3
1 Prop No :I
- 4 4 41000 sr SI
5 5 5000 No No 0 r 0
Table 6 6 65000 No sr 0 Prop No :l

7 7 53000 sr sr 'i Prop No 4


sr 0 Alqullor SI i
8 8 23000 No
OProp SI Ll
9 31000 sr No
2 Prop No I
1o 30000 sr SI
11 20000 No sr 1 Alqullor sr
11 OProp No 12
12 13000 No No
12 No 0
13 11000 No sr 0 Alqulltlr
2
13 81
14 14 9000 No sr I I ron
0
sr 4 flrop No
15 15 60000 sr Nu 0
17 6000 No sr 0
2
16 sr o f"rop Nn
17 19 23000 No
sr 1 AlqullAr .,r 70
18 20 43000 No OAlqullur fl( :I
21 13000 NO sr No 1 •
19
22 21000 SI sr 1 Prup
I
20 ►
◄I
Table I Annotation I I

olo h HI ,,jclo t 011 , idt)r ,1do•, ~H 1<'f 1<..l rm


En la presente figura se puede observar que s c

de los 40 que hay en total.


d dat

1 e I camp s \ac, s. Para el ca d
a ' s del parametro referente a I e tud1
nos. Con ese fin, una el nodo Generate con un n I
e te ultimo. Lue o, ub1que e en eI can1 p Estud10s y n J
. ment
n . ara p der editar lo valore au ente . Post nor

Range
, Range
Flag
Flag
Range
Set
oe Flag
, Range
~ Range
Flag
811

Off'
Specify
Vlew unused neld settings

14. Reemplace los valores en blanco del campo Estudios. Para ello, nl ac al ,wli ~r
con un nodo Filler que se encuentra en la categorfa Field Ops y lu eg ha ,1 dt)t 1
en el nodo Filler para colocar la condici6n. Despues de esto, pre •ione el bl tl111 OK

@
FIii In neld
Estudlos -------~~~--~

Repl te Wllh
'Obi'
Caplt tlo fr i\nl
,. , Ioru <; l on <11f •rent ,r., t nl as ti m111 lid <IC' dato~
·---~----~-

15. Anada un nodo Table para ver los dat .


categoria Ou.tput el nodo Table V ~s que han sido reemplazados. Seleccione de la
la figura sigu1ente).
conectelo con I d -1
e no Fi ler (tome coma referenc1a °

M i{mru
/
uoldr, V AnUguqda / '

'"''

mpl ~d
- - -.... ~ -®
(generated) F ltr T b

BaJa /Mo• H,101

~ ~ Bueldo v AnllgCieda
11 Fields

16. Realice doble clic en el nodo Table y luego cliquee el bot6n Execute para que se
puedan visualizar los datos.

18 Uni
FP
..
HI 21 13000 No Bi OAlquller Si
20 22 21000 SI 81 1 Prop No 1 7111 Bat
21 23 15000 Bl Sf 2 Prop Si 5 10H Obi
22 24 30000 Sf Sf 1 Alqutler No 15 7111 Uni
Sf OProp Sf 1 SH Obi
2'.l 25 10000 Sf
Sf 0 Alqu1ler Sf 3 16 II\
24 26 40000 No
No OAlquller Sf 0 8H
25 27 25000 No
SI 0 81 2 6M
28 28 20000 No
Sf 3 Prop No 7 5H
27 29 20000 SI
OAlquller No 7 4H Obi
28 30 10000 er t~o
0 Alqu1ler tJo 2 12111 Doc
29 31 50000 No No
tJo 3 1H Obi
30 32 8000 81 er 2 Prop
27 5111 B C
1 No OAlquller tlo
33 20000 No 7H Obi
SI 0
32 34 10000 No er O.AJquller
) lH FP
OAlquller tJo
33 35 8000 Mo SI
'2H Dot
Sf 1 Prop tJo
34 36 50000 81 1 2M Obi
Sf 1 Prop SI
35 37 7000 No 10 8H FP
Sf 2 Prop Sf
38
37
38
38
39
40
30000 81
32000 No
33000 No
No
Sf
0 Prop
3 Pro
No
No
2
5
J Ill
7H
Uni
nl ..
17 · Luego, trabaje sabre el campo Alq/Prop . En este caso, observara que hay 3 datos qu
nose han ingresado. Debido a ello, elimine los valores en blanco I pong los v lor s
que deben tener estos campos haciendo uso del ult1mo Table generr.1do.
· I · los p 10 n bl'-m1 o Ln 1
18. Haga doble clic en el nodo Table y se ecc1on . " P,irtr,
· • I re pita I 1 acL1on n I •ct Ned
superior de la ventana cllquee Generate Y uego c J r,,10
nd
permitira generar un nuevo nodo en el panel de desarrollo I ur1I l ' d CJtJL: conr•ct,n
con el nodo Filler.

T ble 11 field . ·•Ii


·-- -- --- -. - - -- -
--- . - . --
(?JEiie fdll Qenerate r
.S,elect Node ('Records") I
'p Sil1dlc Ba) /Ar'\oJAntIgu ct id j xoj
7 II Uni
luaI0

18 Select Node ("8nd")


sr 20
3M FP
sr 3
19 7M Bile
20 Select .Mode ("Or") No
10 H Obi
2_1_ _ Q.erlve Node ("Records") sr 5
Uni
No 15 7M
22 Derive Node ('And") Obi
sr 1 6H
23 Bae
sr 3 16 M
24
r sr 0 8H B C
25
2 6M Bae
26 20000 No sr 0 Sf
7 SH Obi
27 20000 sr sr 3 Prop No
7 4H Obi
28 10000 sr No OAlquller No
No 0 Alquller No 2 12 M Doc
29 50000 No
8000 Si sr 2 Prop No 3 1H Obi
30
31 20000 No No 0 Alquller No 27 SM Bae
32 10000 No sr oAlquller sr 0 7H Obi
33 8000 No sr OAl uller No 3 2H FP

19. A continuaci6n, haga doble clic en el nodo Generated y elija el modo Discard para que
nose consideren los espacios en blanco. Luego, cliquee OK.

!" ··············-····1
~ - ~ j:
I
@1
➔, l
I
,

!<generated)!

Mode: Include l ) Discard

'Alq/Prop' = ""

Condition

Annot· non

l Cancel
[ 8')ply
( p t 11
ll dlf I llt( t Ill ) d lnhl( fl, tit dJl "

20. r "ll nod


LIil VP d I 1 < I O 1 FI Id
d 11 rm nt t1 0
p0 ,a Ops Y con1:'ClPlo al nocio Gene, ted y,1
r · d ' dobl clic al nodo Typ Ponga al ct1mµo Alq/Prop r.orno
ar rn trod s 1, y al campo tt ·
J como n n • porque steno se va c utl11?,)1.

► d

"--===-- ~ --...-:c- -'fyp


R nge .:.:.!:-
e - - -..--:'--:-=:=----=='--- nChe
N-o.....:::.: _k _ _ _ _ _... ...
, R n11e Non
Flag None
Flag None n
Range Non '-,. In
Set None Out
Flag
, Range

urus eld se ngs

21. El siguiente paso sera a nadir un clasificador que permita predecir el valor de la vivienda
de cada uno de los datos que estan en blanco. Para ello, de la categona Modeling
seleccione el nodo CRT y enlacelo con el nodo Type. Luego, selecc1one el clasificador.
Haga clic derecho en el y presione el baton Execute. Luego de esto aparecera un
diamante, el cual debera enlazar con el nodo Type.
Ao.

Streams Outputs Mod Is

~ top

led) ◄

CRISP-DIil Classes
CT u11slM!d project)
BuslnnS lhlerst
Data Understanding
AIQ/PfOP
Data Pr par ton
MOdelng
Alq/Prop E uation
D ptomient
2 Part1 v I I par nt j d precision d •I rnodelo crPt1do, I c 10n I I n I lo /\ 11 ,11y,.1'y
con ct lo con el diarnante CRT Alq/Prop. Lu go, hag dobl cli I'll I I nndo A11,,1y,•I',
,, 1c1 c1 E ta acci6n, podra v r la precision del morl lo.

I: CollapseAII
8 Results for output field Alq/Prop
l-=1 Comparing_$R-AlqJProp with Alq/Prop
Correct 34 97,14%
Wrong 1 2,86% .11~ ,I ,
[ Total _ _ 35

Analysis Annotations f

23. Para observar las datos que se han predicho, copie el nodo Type y con 1• tell) rnn
el nodo Filler. Luego, enlace el nodo Type con el diamante CRT Alq/Pr op qut' ,t' h.1
creado y conectelo con un nodo Table.

-----►--@
pe Filler (gener t d)

Alq/1 ,op
Type
~1
········-··· i
Alq/Prop ,fml 1
' - - - - - - - - -- - - - ~ -- -~L=f· hll I
1~,
/
pftulo 6: Apli tl Ion" con cliferente tecnic as de mincria de datos 161

24 . Haga doble clic en el nodo Table y luego presione el bot6n Execute para poder
v1sualiz r las d, tos. En el caso de la figura siguiente, se puede visualizar que el data
falt·intP d I r gistro numero 5 ha sido predicho coma Alquiler al igual que ocurre con
el p rt neciente al numero 16.

f
fEI Sueldo Cas rjo Cor.he HIio~ Al rop Slndlc Ba1as/Allor.'-ntl Uedad 8eYofE·,tudlO!l $R•Alq/P~OP
1 13000 No Sf 0 Prop No 2 3M Obi rop
2 32000 Sf No 2 Prop Sf 1 15111 Bae
3 3 12000 No No 0 Alquller No 0 6H Obi
4 4 41000 SI SI 3 Prop No 3 13 H Uni
5 5 5000 No No 0 Sf 0 1H Obi
6 6 65000 No Sf 0 Prop No 3 8M Doc
7 7 53000 Sf Sf 5 Prop No 4 18 M Bae
8 9 23000 No Bf oAlquller SI 7 2H Obi
g 9 31000 SI No 0 Prop SI 0 SH Bae
10 10 Joooo sr Sf 2 Prop No 1 20 H Bae
11 11 20000 No sr 1 AJquller sr 3 3M Uni
12 12 13000 No No 0 Prop No 12 2H Bae
13 13 11000 No sr 0Alquiler No 0 7H FP
14 14 9000 No sr 1 Prop sr 2 3H FP
15 15 60000 sr sr 4 Prop No 0 10111 Uni
16_ _ 17 6000 No Sf 0 No 0 1H Obi
_17_ _ 19 23000 No Sf 0 Prop No 2 4111 Bae
Sf 3 Alquller Si 20 7H Uni
18 20 43000 No
~ 21 13000 No Sf o Alquller sr 3 3M FP
_20_ _ 22 21000 Sf sr 1 Prop No 1 7f'A Bae
~

25. En cuanto a Ios va Iores d eI campo Estudios' si desea cambiarlos


, . a valores numericos
/D
. , F Id Ops el nodo Derive y conectelo al d1amante Crt A 1q , rop,
selecc1one de la categona 1e
tal coma se muestra en la figura siguiente.

. &
®. Type
Alq/Prop

---

Table
I cll1lfllll I JI Vt l1t ·ld 1111111•-t1I
26. Proceda ad r dobl cli en ~1 no lo Dl r IVt . 1.n . I
I I 111 11
(-\U,lllf.\ll'',t f
I,tl11111111 ,n11 , 11 •
1' 1111 I ti
SET_ESTUDIOS yen Deriv A mi:lrqu t. Lll ,1
I

se muestra detallado n In figu1.1 ig11i nt .

...
~
-- -- - -=----- ------;~
-

M11l1ipl

Id
SET_ESTUDIOS

f I It V I 1 [1 1 I 1lll1

, If IIH

2
3
•5

27. Pa ra od r v r Y v1 u Ir
lfl
o
Tabl al nodo riv y h
Capilulo b: Aphc ar iones .
- con diferentC'<, L{>cnicac; de mineria d<' datos 163

28· Pc1ra poder seguir trabajando ' filtre la ·informac1on


.,
q ue sea u'n·1 • para e II o, agregue un
odo Filter y conectelo con el d .
n no o Derive Set Est d. L h .
ilter y solo selcccione los ca - u ios. uego, aga doble clic en
f mpos que va a usar.

@
V· Fields 14 In, 3 filtered, O renam'ld, 11 o

--
r
8 )JS/Ano V Hl)OS I Field Filler Field
fEJ --------..c~'..-
#EJ
Sueldo

-
Sueldo
Casado Casado
Cache
Cache

@
--
Hljos

.r
da Alq/Prop
Slndlc
~

-
_ESTUDIOS BaJas/Afio
Anligliedad
Sexo

I® Estudios ~

-
$R-Alq/Prop
·p, l•lq/Pr r·
1 FIiter SET_ESTUDIOS SET_ESTUOIOS

29. Use un nodo Matrix de la categorfa Output para ver la informaci6n en un cuadro de
doble entrada entre cache y casado. En el caso de la figura siguiente, puede observarse
en la tabla que de las personas que son casadas 12 tienen cache y 3 no lo tienen. Por
otro lado, de las personas sol teras 16 tienen cache y 7 no lo tienen.

Ma nx of Casaao by

G E.ile fdit
Cache

Casado No Sf

@ Sf
7
3
16
12

asado x Coche
~ l • ,I I l' llilllfJ',
• I

- • • ••·..,

- ••••
••
••••


• • •• •
0

•• •• •
[i] 0 ,
0 .:o 000 •10 000 0 (IUtl

~
'liu ldo
xScx

Sllelli.c V. lied& (' ~h Annotations

30. Como siguiente paso, anada un nodo Type y conectelo con cl nodo Filter. Luego d
haber escogido los valores de entrada, conecte el nodo Type con un nodo Plot para
poder ver la relacion entre estudios, sue ldo y la propiedad.

. '".. - - - -, --

.Qenerate ~YJw,

Af op 5 q/PrOP
• • QUI r

-
0 • ·- ... •
e PrOP

ble
0

~3
~
1-1
• .... .. •
""u,2
••• •
1 - ••• ••
OetMJ
0

£
ldo " SET_E
:-0.000
u ldo
'10 rJOO
16~


.,,
15

,,.,• • •
~o
.:l •

\ •
C:
C
• 0
s • • •

£
Sueldo v "1lbgueda
Sueld
-10 .
'

32. Haga clic en la pa rte superior del menu en la opcion Generatluego escoja Derive N de Set. '>
Con ello podra crear un nuevo nodo que conectara a su , e:: con el ultimo nodo T' pe crea
Luego, conecte el nodo Derive generado a un nodo Table para er las resultado tenid .

[i] tJH
6H

IH '
1
0
Table SM
3
,4 I M 3

- ~® 9
9
10
0
1
:J
SH
.OH
3M
.H I
J

'
T
~H 3
TyPe 12
0 ,H
l JH
0 10/11
IH '
1

[fjJ 20
0
'
;H '
3 J
Tallie
It,

6.7 C, son.'' 7: Ohtener y tr' nc.,formar <la oc, a trave de ODBC


(con ·xi6n de bas<: d · dat o ahic·rta)
Ha-:t Pl rnornrnto j ha rdbaj,Jdo por mrlyor comodidad en ficheros de te>'to, pero en la vida
r al lo, datos qu, uno utili1.a p ra c.:I d •sc1rrollo d .,te tipo de proyecto puede provenir de
difer ·nt s fu ·nt • r:ntr la' c..ual sr: pu de m ncionar a SOL Server, Oracle, lnform1x, Paradox
Syba<e, etc. Para I pre',ent _ca o ',c va a utiliLar una ba!>e de datos de Access, que se encuen ra
en la c:;3rpeta siet0_tran, formaci6n d datos, p rteneciente a los recursos en linea de e5t~
libro. Para pod r 1ie,u(llizar lo,. dato , , n c .,ario hacer dable clic en la carpeta. Ello perminra
accedr•r a toda:; I .., tabla~ d _la bas de data , tal coma se muestra en la figura siguiente

ld(llor,t,
l.1J"11,f1w9 ltlfli•rtt•
Uombrt(orripari,
tlt'Jftbr•r•TIJ/jl 11 rr,plt•do
141,,,,., ,,,,,, llornbrt'or,hcto
I trt,1P•dlOC>
f,jl~1tgr,r(4 CargoConhc!o
f trh1Errtttg-,
f 11r1t 1J.,,j~r,,1 Drrtw6n
f •th1£r,vfo
flud•d
f r,rrr,~lrMr,
P•g16n
'1rgr1
(6dP01tal
u•1t1n•l•r10
P•I>
u1rn,16n(1' 1t1r
lellrono
f.,
N,,,,, ,rll!
'"'''-'''
fritt f 1l•r-.t1 1
'n>11 ►4•nrri1,,r
, ,rtli1f IJr.Jrtt
rJ1r•r11t:.r,
'1 1,11,,i

,,,,,,,, ,~.,
f'•s, 1'1n
(

P•I:
r 1rH,1r.t,u1,,
lh•ti;11,,,
f,,t,,
,,,,, '
Ft,?ura 6.1 B,J ',/• dr 1],it , , rJ, r I
' •· • I 1Jr1r )
f IJ /'.• [!tl•• I ' ,JIJ' r,

j
Ill/

1 tr ,1\ , d,
d\ l \'ll ll 11 -.11

Lil 11u' t I 1 · '" 1Ul 111di .i lw11 11111 'Ill


fl, l : II 11 11 l , \p ll l 'I , 1 l 111, \ \ 11 t 111 l

l
ntrar
Capitulo 6: plicaciones con d"f
1 erentes tecmcas
· de mineri;i cle datos 169

Trabaje ahora con SPSS Clementine M d.


4· . · e iante esta h ·
con el nombre transformac16n de d t erramienta cree un nuevo stream
, S - - a os l1bro Luego I .
la categona ource y haga doble cli·c --; • , se ecc1one el nodo SQL de
. en e 1. Apare ' .
siguiente. Para terminar, haga clic en OK. cera una ventana como la figura

._Vent.a PorC tn~t~

@ t Refresh
dns_neptuno

Mode
• Table SQL 'Juery

Oat source rdns_ neptuno

Table nJmo [ _VentasPorCuatnmestre

tasPorCuatrimes ; Quote table and column nc1.,,-,,,,.,...


- ..........,.,,IUJJ:'·::..-.

Strip lead and trail space~


Qata source (ci'ns_nept•mo

., Show table owner

TablesNlews

.Catalogo
.Cllentes y proveedores por cludad
Consulta de pedldos
Show-~ l,!ser Tables ~ 1'.1ews
Data Filter Types
0 Sr.,tem Tables
OK [ Cancel

s • Record O s • Field O s .& Or

5. Para poder visualizar los datos, seleccione un nodo Table de la categorfa Output y
unalo con el nodo SQL. Luego, ejecutelo para ver los datos. En el caso de lo mostrado
por la figura, se observa que se han obtenido 12 registros.

ORD ANYO
11- - - - 1 - 1 1994A SnullS
1- - - - 1
2 19948 $null$
2
3 j 31994C 2413 030
4
J 4 19940 4404 160
:_J
rffl1 5
6 :__J
5 1995A
619958
6356 030
7547140
~
/T•bl• .l!7
g
10
11
7 1995C
8 19950
9 1996A
1019968
11 1996C
8457 620
9282 360
12998 7
124959
$null$

®
12 19960 SnuliS
1L

VentasPorCuatrlmes ..
Table Annotations
6. Continuando con el ejercicio, elim ine los valores nu lo_s debido a que no avudan a
predec1r el volumen de ventas. Para ello, real ice dobl~ cli~ en el nodo Table, seleccione
un valor nu lo y luego, en la parte superior del men~, cl1q uee Generate. En seguida,
seleccione la opci6n Select Node con la cual lograra ~~nerar un nu~vo nodo Select.
Haga doble ch c en este nodo y ponga Discard en la opc,on Mode. Al finalizar, presione
el bot6n OK. Si desea visualizar la informaci6n, debe colocar un nodo Table.

@
lode Include Discard

@NULL(TOTAL)

Condition

Settings Annotations

OK l Cancel 8PPIY Reset

7. Elimine algunos datos que no parecen estar completes y que, por lo tanto, no van
ayudar a predecir el volumen de la venta. Para ello, re pita los mis mos pasos anteriores.
Haga doble clic al ultimo Table usado y luego seleccione las dos valores a el1minar (en
este caso, 1994C y 1996B) . Vuelva al menu y seleccione en la pa rte sup erior la opcion
Generate, asi coma tambien Select Node (Or) . Todo esto permitira crear un nuevo
nodo select que sera conectado con el nodo Select creado anteriorm ente. No olvide
que al crear el nodo Select debe poner en Mode la opci6n Discard.

® _ __,,►► @ _,...,@ 1 1 I

tas PorCuatrlmes (generated) lcgenera ted)I Mod lnc lud • Dtsc11rd

ANYO ="19968" or ANYO "' • t 994 c·

Condition

Settings Annotaburi
1/1
"''
, I
1,1 l,i I 111r11rlf'ri11, ., Ii.,, lrllr.i J1> ; rp11 1,ir, (.f•r ·,td ',
I II I II t, V 11 I 1 1
' ·, 111.i ·I 111,d,, , •11, I , r r1dr1, 1,r, 111 r, 1 l11 f,1~111•
rd· I, 1 •.i lr,bl, I1 1I r,,,, j ,, I.ti I, y prr•·,1r,ri1• •I h11t ',r, Ix ut

(U• 11 r I rl)

114 11I ,11,


11/ffJ 1,11
11'1%7

,tit Annot 11 n
rK

9 /\nc1lic c1 hora c6mo sr h;:rn comf)ortado lo,; dato'.. de las ventas Para Pllo, haga u:.o d~I
nodo Plot que s ubic en la r..cJt gorid Grdphs y c.onectelo con el ultimo nodo SE:lect
generado. Luego, haga doble clic al nodo Plot y seleccione los valores. En la parte
inferior en la pestaiia Options escoja el Style como Line y luego presione Execute para
ver las r sultados.

ORD V TOT L

•t TOTAL

I
fi Xfleld r, ORO

Overlay
I
I Golar: r ..I] Size ..0 Shape
RDv TOTAL/
I

Panel· r ...J1j An1mallon I .0 Transparency

Overlay type None

Smoother

Fun~lion
Output Annotations
Plot Options Appearan Ce

OK )(erute
En la figura siguiente siguier te se p e e o se · a
de acuerdo al paso del t1emoo. Por o o la o, la -- .... _
- --
resulta necesano aplicar un nodo de regres·o ·

14.000

12.00

..J l0.00
...C
0
I- 8.00

4 s 6
ORO

10. Conecte el nodo Select generado con un nodo T pe


muestra la figura siguiente.

11. Para agregar el nodo de regresion, seleccione la


'"'"' ''-!".•~··
nodo de regresi6n para enlazarlo con el ultim T
en el nodo de regresi6n y presione el baton E

(generated)

T
~~6~p~11i::::==-=-~=--~------~---/
on ., con dite t
ren es ter.nicas de mineria de da 0
173

a doble chc en el d1amante y podra b


o servar el modelo que se ha generado.

atys1s
ORD"' 1504,6 +
- 1605,8
Ftelds
Build Settings
Training Summary

13. Evalue el diamant e obtenido. Para ello, conectelo con un nodo Type y luego a ur
odo Multiplot de la categorfa Graphs. Posteriormente, seleccione las opciones que
se muestran y presione el bot6n Execute para acceder a los resultados.

~I:\ ----t►~ X field. , ORD


~ ~=========-=-====~ri
, TOTAL
Yfields , $E-TOTAL

overlay -
~Arumat1on-[
[ Panel: [

□ NormallZe
:,
□ overlay function
TOTAL
hen number of records greater lhan [ 2000 j:

sample , , use all data


in ng _ in Tia de dato

En la figura s1g, 1en ere P ede o bservar q ue el modelo obtenido se ajusta bastante al
modelo r&:!al

0 2 4 6 8 10 12
ORD

TOTAL
_$E-
TOTAL

14. Para poder aplicar este modelo a cualquier valor lo que tiene que hacer ahora es cager
un nodo diamante y conectarlo con el ultimo nodo Select generado. Una vez hecho
esto, haga clic derecho y seleccione Generate User Input Node.

!;_d1t
G- Connect F2
D12connect
F3
Rename and Annota e...

Cu-
cttl-X

~
C.QpyNode
ctrt-C
X. Qelete
Suprll!W

/ "'" ~
1=oad Node.
Relrle~e Node
§.ave Node ..
Sore Node

Cacne

Data Mapping

Create Sy_perNode

Gener;ite User r.;21Jt
C 1~
Md To Odels Palette

~TAL

®
User Input
/
Capitu1o 6- Apll ·
· caciones con diferentes Lecnicas de minerl,1 de datos 175

1s. Aparecera un nodo User Input en el cual debe ahora indicar los valores que va a
predecir. Para ello, haga doble clic y escoja los valores 3, 10, 11 y 12 en la columna
ORD, ya que todo esto constituye lo que interesa.

ORD_ _ _Field ----L,,,,_~r a g ~ Values


Integer 3 1o 11 12

®l
ANYO
~ String
TOTAL
<8)Real
$E·TOTAL ®Real

User Input

Ops .t.. Graphs

Generate data • All combinations In order

FIiter Types Annotations


StJfJstics Muns
[cancel

16. Luego debera unir el nodo User Input con el nodo diamante. Posteriormente, debe
unir este nodo diamante con un nodo Table.

1®1---.. . ,:~
l~: ~
Table
!User Input! TOTAL
' ---------··..···'

17. Al hacer doble clic al nodo Table, se podra observar que se han obtenido los siguientes
resultados:

ORD /INYO TOTAL


$nulls 5,;n;;u-;u:115io;;;;;,;;,;;;..,;;_,.---""'j2909 091
10 $null$ $null$ 1 3440 60'i
[TOTAL SE-TOTAL! v 11 $null$ $nuns snullS 14945 250
12$null$ $null$ $null$ 16'49 89'i

Table Mnotat,ons
er Input TOTAL Table
.
Data mmlng - Mtneria de datos

. d este parrafo se puede 1er q e lo: r-=: •__


En la figura ubicada en la pa rte superior e lO de la columna ORD sor di erE:r,•-=-- : -::
. I illeros 3 Y . . ---;:.
obten1dos_c_on respecto a os case habia deducido que la informac on e~:oc::1 E:··::::·
valores in1c1ales por los cuales s . rel valor era de 12495.9 '{ co~ '= """r- ·
. ORD ante no J - -= -
1
En la casilla 10 de la co umna Al finalizar este ejemplo, se deoe o:r'=r"'· ~
obtenido el valor es ahora de 1334O· - ~
s1gu1ente figura:

[i) [i]
Table / Table
QP!) y - -

@ ►~
- -... ~ ~
(llenerated) (llener.ted) ® ---1►►~
Type

~
TOTAL [TOTAL $E-TOTALJ v ®
User riput

0
6.8 Caso n. 8: Catalog_forecast (series de tiempo)
A continuaci6n, se va a resolver un ejemplo tornado del tutorial de 5::,:.:: ,. . e ·2-:-~-2 :
cu al consiste en hacer un pron6stico de ventas. La informacion col') a .e :e :,..3_ ::- ~ ~
se encuentra en el stream catalog_forecast y la base de dat s
ubicados ambos en la carpeta practica_ocho_catalog_forecast. Pa,..a ::--~. ~ .. : -2:-::~
hay que dar doble clic al stream antes mencionado. Luego, se vera

----~► @
tatog_seasf~c.sav
Time rlVa\s m n

men
apitulo 6: Apllcac lones <on diferentes tecnlcas de mlneria de datos 177

Lo primero qu hily que hacer es anal1zar la informaci6n que se encuentra en el


stream El pr sente caso gira en torno al pron6stico de la venta de vestidos hecha
por muJ r s:

Como paso in1c1al, agregue un node Table y enlacelo con el node SPSS. Luego,
hc1g doble cl1c en el nodo Table. Aparecera una ventana. En seguida, presione
I bot6n Execute para poder visualizar la informaci6n. Saldra un cuadro come el
mostrado en la figura siguiente, en el cual se observan las ventas de los hombres
y mujeres en determinadas fechas.

1
date men =r women I jewel
89-01 01 11357 9 .. 16578.9... 1 0776.3... 7978
Imail Ipage Iphone I
73 34 22294 4... •
2 I1989-02-01 10605.9 .. 18236.1... 10821 .9... 8290 88 29 27426.4 .. .
3 1989-03-01 16998.5 ... 43393.5... 22845.7 .. 8029 65 24 27978.6 .. .
4 1989-04-01 6563.750 30908.4 ... 11102.6... 7752 85 20 28949.6 .. .
5 j1989-05-01 6607 .690 28701 .5 ... 16066.5 ... 8685 74 17 22642 .2...
6 1989-06-01 9839.000 2964 7.5... 11061 .2... 784 7 87 30 2721
7 !1989-07-01 9398.320 31141 .5 ... 11328.9... 7881 79 28 2663 2 42 2
8 !1989-08-01 10395.5 ... 31177.3... 16788.8 ... 8121 72 27 30374 9 ..
1989-09-01 11663.1... 30672.3.. 14452.6... 7811 83 35 26794 7
1989-10-01 12805.2 ... 37633.3 ... 16055.8 ... 8706 111 25 32808.1
1989-11-01 13636.2... 33890.9 ... 24556.5 ... 8811 74 30 28589.7
12 1989-12-01 22849.0 ... 51378 .0... 34645.8... 1 0... 105 45 38738.6.
13 1990-01-01 12325.8 ... 18103.0... 11528.2 ... 8081 66 35 22723 .6.
14 1990-02-01 8273.580 20979.5... 12884.8 ... 8378 59 20 24912.4 ..
_1L__j 1990-03-01 10061.1 ... 34503.1... 147481 .. . 8586 60 25 29917.5 ...
.1.§__j 1990-04-01 11497.7... 26783 .9... 9595.200 8438 82 35 20911.5 ..
.1l__J 1990-05-01 10363.1 ... 31790.1 ... 15926.0... 8589 91 28 26902.8 ..
.1.L__j 1990-06-01 10194.6... 32432.7 ... 11383.0... 8565 80 25 26079.1 ..
19 !1990-07-01 8401 .240 37180.0 ... 16052.9... 8526 64 24 35957 2. .
20 j 1990-08-01 13642.8 ... 29658.8... 14803.3 ... 8978 74 32 25415.9 .. ...
[► '
Table
T Plot y luego pres1one el bot6n Execut
2 A continuac,on. hag doble clic en ~I no~~ ~l~~al pod ra observar que las ventas esta:
par cera una ventana con un gratico , a de t endencia.
aumentando y d1sminuyendo en relacion a 1a 1ine

IT'8n
40 00
men
$TS-men

(men ST'S-me

10.000

1, 1 90 1 1., 92 1/1/94 1/ 1 196 1,1199


$Tl_Timelabel

Graph Annotabons

OK

3. Construya ahora una proyecci6n de venta para las mujeres. Para ello, de la categorfa
Field Ops seleccione el nodo Time Intervals y conectelo con el nodo SPSS. Luego, haga
doble cl ic al nodo Time Intervals y seleccione los datos. En Time Intervals escoja la
opci6n Months, debido a que el analisis se hara segun un periodo de meses.

[i]
/ Table

@ ~
nme Interval: [111ontt1_s _ _ _ _;_)

v Start labeling ftom first record \!) Build from data

Field Ii date:1

Newneld name extension f;fi'n_


Ti - - - - - - - - -
~ - - - - - - - - - - - 1 J A dd as • PreflX ~ sumx

AA\
\f:!:/
Time Intervals woman

Intervals _ Build Esttmation

~ITan~~ Forecast Annotations


/
CapihJlo 6: plicaciones con diferentes Lecnicas de mineria de dato. 179

4 De la categorfa Modeling seleccione un nodo Time Series y conectelo con el nodo Time
Intervals woman. Luego, haga_doble clic yen Target seleccione las ventas de women.
En la pa rte inferior de la pestana Model cambie el metodo a Exponential Smoothing Y
luego haga clic en el bot6n Execute. Aparecera, entonces, un nodo diamante.

@ Per1od1cit, 12
m
Use type node settings • Use custom settings

Targets~~~!.!.!.....~ - - - - - ~ - - - - - - - - - - - - ,~ :

Inputs.

..
~
woman

Fields Model Annotations


OK [i ~xecute ] --C-a-nc_e_l-, ~ply ]' Reset

s. Conecte este nodo diamante cone I nodo Time Intervals woman.

crJ
@ sortt,y[Selecte_d_ • •~view Simple .
Number of records used ,n est1mabon t 20
Targa1 Model Predictors stabonar,R"i a C!f s~

® .

ntervals
,.y
-
Simple 0 0,419

summary St11bst,cs
83,041 17 0 0,

Statistic StaUonar,R-2 Q (Sf s


MEAN 0,419 83,041 1,
SUMMARY
SUMMARY SE
MINIMUM 0,419 83,041 17
SUMMARY
MAXIMUM 0,419 83,041 17
SUMMARY
PERCENTI 0,419 83,041 17
SUMMARY
PERCENTI 0,419 83,041 17
SUMMARY 83,041 17
PERCENTI 0,419
SUMMARY 83,041 17
woman PERCENTI 0,419
SUMMARY 0,419 83,041 17
SUMMARY PERCENTI
0,419 83,041 17
SUMMARY PERCENTI
0,419 83,041 17
SUMMARY PERCENTI
summary sewngs ~libons

t.ir B:•
cancel
It l'I d1.i111.1nt 1 w 111 '' 11 n11 l 111
0 11 , 'l 11 I( >I IITll Pl 1r qu1 ',t l'IH lll•11t1i1 , 1 c ti r•po
1

1ll 11 11
1.1phs, I lll' 1 n. 11.ig.i dol I ' Ii Y 'ti I 1 1 l()lll ' lo•, v.ilort", < nr110 ',P 11111< 11 ,tr.i 1 1l11\,1 r1~
( ( ( 111 I 11
r,'"1,1

Plot • I 8 I ct d I rl ' rlr , r11ud I

, W011HHI
s r111 , , r l-worn 11
r [:

u lorn
['womon $TS-wom p n I I I t'1orm JIit
Dleplay ~I Un
r l Point
I Smooth r

Output ~1 Limit records M xlmum numb r ofr cord lo pint 1000

Plot l Appe r nee I Output I Annot lions

~ I ► Execute J Cane I j ppty f Be'3f!t

7. Haga doble clic en el bot6n Execute. Se mostrara un cuadro similar <1 este:

00,000

women
-$TS-women
60.000

40,000

20,000
on ns-wom

1/1/90 . --,_
l/l/ 9l l/l/94 1/1/96
$'T(_ TlmeLabel 1/1/90

Oraph Annotation
/

E e gra t:O V ,-'.;


aume • ,.do I r.,1:r" /'=' r;r.> ~ , ' "; ~"../,' ~ ,; ', ,.:;_ ",e.

Al finaltzar ~1 EJe c, c. o, ~e:: "~ ;'; r/,?<., ,", ': -: ,;

6..., Caso n." 9: Computer ha.rd· ·are data. ~e:


- _____ __,
- -
- ,.. :: -==~ -=- ;;.

.... - - --- - ----


-
-------- -- - --- -- --- -
-::..,- -
--::,-

---
._ .:: ---= .:.- _. ':: - = -= --
182 Data mining- Mlneria de datos

La informacion que se muestra es relativa al rendimiento de datos de CPU d .


~ d . t L t 'b , escritO
terminos de su tiempo de ciclo, tam ano e memoria, e c. os a ri utos de cad er
ellos se encuentran en la pagina antes mencionada Y las datos estan
. dispon·bal
I es unadt
e
carpeta llamada practica- nu eve- computer_hardware, pertenec1ente a los recursonla
Ifnea de este Ii bro. ser1
En este ejemplo se va a determinar la relaci6n de dependencia entre las variabl
(cantidad mfnima de memoria principal) y el ERP (rendimiento relativo esti esMM1ti
, I . I . . mado d•·
articu o original). Para ello, se van a eJecutar os s1gu1entes pasos: ,
1. Cree un nuevo stream con el nombre regresi6n_lineal_hardware libro y lue _
el nodo var. File. Ponga la direcci6n de la ruta en donde se e~cuentra e~o an~da
. Ib , , archive
pres1one e oton Apply y despues OK. ·

@ ...... ~ IF., ~
D:\DAZA_LIBRO_MINERIADEDATOS\llbro\pract1ca_nueve_computer_harware\machlne.da1a

FIie: D:\DAZA_LIBRO_MINERIADEDATOS\libro\practica_nueve_computer_harware\machlne.dat r-

vendo~ n11Jae,Hodel N11Jae,MYCT,HHIN,HHAX,CACH,CHMIN,CHHAX,PRP,ERP


advise~,32/60,125,256,6000,256,l6,l28,l98,l99
am.dahl,470v/7,29,8000,32000,32,8,32,269,253
:mdahl,470v/7a,29,8000,32000,32,8,32,220,253 ..
" Read field names ftom file D Specify number offields I 1 ~:
Skip header characters: [ G :===~-_
--_ _0...J..Fl..:...JEOL comment characters:!...._ __ ....JI

strip lead and trail spaces: @ None O Le1t O Right O Both


Invalid characters: @ Discard O Replace With LJ
Encoding: Istream default ... ] Deelmal symbol:
'----~:..__J lStream default • '
IDellmitms - - - - - - - -
0 Space ~ Comma D Tab Lines to scan for type:
Quotes- - - - -----=
50 I:
r..i
~ Newline D other
0
[
Non-printing characte_rs_ _- - J
J Single quotes: \ Discard ..:J
L_"''ow:u:ple blank dellmtte,s Double quotes; (;=D=ls=ca= r=d== .::::!1

j ·
FIie Data
~-
Filter I T
-- l ypes . Annotations 1-
OK [ Cancel J
/

183

2 Analice ahora la r lac,6n entr: las variables MMIN y ERP. Para ello, af\ada un nodo Plot
d la categoria Graphs Y conectelo con el nodo var. File. Haga doble clic y seleccione
la opc1ones como se muestra la figura siguiente.

Y ERP

~ xfield II? h4MIM ...O]vneld r, ERP

mar~1ne data c~v Ovorlay


Color I ...Ojs1ze .,,[] Shape L
IPanel [ ...Oj An1matlon I ..01rran~parency rl~ - - ,
Overloy type • None
, Smoother
Function

Plot Opbons Appearance Output Annotabons

OK l ~cute l r-c;ncel
--=-----==::::...::;;;;;;;:_.,,,.=.1

3. Presione el bot6n Execute. Aparecera una venta na coma la mostrada en la figura


siguiente. En ella se podra ver que existe una relaci6n de incremento de MMIN y ERP.

' '
1 .200 '
- - '~----------------►-------
'-- - -- - - - · -
I
'
'
1.000 --~----- -- ----- - ---~--- ----- -·
'
-- : . ---
- ~

BOO -- -- ----- - ---- -


~
Cl:
W 600 __, -- -- ·------ - 1 • - - - - ...
'
'
400 --~---- - - - - - - - - ---► - - -
'
'

0 10 ,000 2 0 ,00 0 30 .0 00 40 .000


MMIN
Id ps P< r e p ,c,ficar los pararnet
11 1 1
4 ros d
n r 11 D pll , rla I nodo va r File. A continu .. e
r ac,on
I n do Typ Y I cc1one I opc1on ·s (v la figura s1guientei'
d darl otro nombre al Type. En la fJ gura se le ha dad ·
o el
n m

•Ra •
•RHd•
•Rt O•
•Rt id• U ri

•R11cl,.. ''

5. Afiada un nodo de regresi6n de la categoria Modeling y enlacelo con el nodo llamado


Type_MMIN. Despues, haga doble clic y seleccione las opciones a usa r.

I
~I I Use type node settings Use custom settings
ERP ..! Target , , ER_
P_ _ _ _ _ _ _ _ -- - ..[l

Inputs ----
, MMIN ..[]

:=,-::::a.::,,==-====-==-=====~==-==ri
Partition 1 ~

J U<ie welgh1 field J)


Fleld'3 Model Expert Annotations
.....
/
18S

ut · t'S t me lo, <• crt ,11, un d1,1r11,111lt• cun Pl nornbr d


l 11 1 P 11 1 :-.11pl'f 1 )f dt r1' Ii 1. /\rr ,,..,, r I > y lo rnn(•c I I I nodo
M 11N, t ii Ill mu tr I 111 Uld SI LIi ·nt '.

.. (;E)-----
Typ MIN

RP

7. Para ver el modelo que se ha creado mediante la regresi6n lineal, haga doblc cl1c al
diamante ERP y vaya a la pestana Summary.

Summ ty Adv need Annotations


Model
c ncel
pply l B.eset
1
V lHJ lt•lo con
n111lo MuIt1plot Y

. . I l,1 Ii
•1 t"pply y lu g n x' ut . A parllr d csto, se v1sualizara una ventana
trnh l.1 dl I f 1•u1 1 ui 'nt , n I c1 cu I s pu d obscrvar que los valores del ERP
,,um nt rn y k,nllnuy n n r . p cto I l1n a de tendencia.

1 . 00

1 .000

000
600

400

200

0
r - r-
0 10 .000 20.000 30 ,000 <10.000
MM1N

ERP
SE-
E:RP

Qr ph "'1not 11011

r OK l
Capitulo 6: Aplicaciones con diferentes tecnicas de mineria de datos

Ejercicio propuesto
sasado en el caso anterior, se le propane analizar la relaci6n que hay entre MMAX y ERP, asf
coma tambien el valor de ERP real con respecto a la If nea de tendencia de ERP. El objetivo
final es poder llegar a construir un modelo como el de la figura siguiente.

_ _____.,~I
I
L
ERP
--'
I

~ ----tlr► M
~
~
@~ ERP
ERP !SE-ERP ERP] v MMIN

machine data.csv J:::\


\B'
Type

~
ERP (ERP SE-ERP) v MliWC

6.10 Caso n. 10: Detecci6n de fraude


0

En este ejemplose muestra el uso de Clementine en la detecci6n de algun comportamiento


que pueda indicar fraude. Loque se intenta demostrar es c6mo los metodos de analisis
se pueden utilizar para descubrir desviaciones de la norma y destacar los registros que
son anormales y dignos de una mayor investigaci6n. El dominio a utilizar se refiere a
las solicitudes de subvenciones para el desarrollo agrfcola. Se consideran dos t,pos de
subvenciones: el desarrollo de cultivo y la clausura de la tierra. Se esta particularmente
interesado en aquellas solicitudes de subvenci6n que parecen reclamar demasiado (o
muy poco) dinero para el tipo y tamafio de la granja. El analisis se va a realizar en do
etapas: primero se hara una selecci6n preliminar utilizando detecci6n de anomalfas y
despues, una exploraci6n mas a fondo con el uso de un modelo de red neuronal.
Los campos involucrados en este ejemplo son los siguientes:
• Id: numero de identificaci6n unico.
• Name: nombre del reclamante.
• Region: ubicaci6n geografica.
• Landquality: la declaraci6n del agricultor de calidad de la tierra.
• Rainfall: precipitacion anual de la granja.
• Farmincome: el ingreso anual declarado de granja.
• Maincrop: cosecha primaria.
• Claimtype: tipo de subvenci6n solicitada.
• Claimvalue: el valor de la subvenci6n solic1tada.
D t mining- datos

Los pasos que se van a emprend r para crear un modelo como el de la figura s1gu1err
son los sigu1ent s:

►@ ►@ ►@
'f c,eo'f• edl ~
' f / Anomaly

regmn x m
& tncrop x.
~ @---.. . . . .
dtlT
Anomaly Table

table
cla,mvalue
name

clalmdilT (generated) ame

Figura 6.11 Modelo a construir

1. Conecte a un nodo var. File el archivo con los datos que se encuentra n ubicados en la
carpeta llamada practica_diez_detecci6n_de_fraudes, pertenec iente a los recursos en
If nea de este Ii bro. Luego, haga doble clic en el nodo var. File y seleccione las opciones
como se muestra la figura siguiente. Posteriormente, realice un clic en el baton Appl\·
y luego en OK.

@I : Refresh ] ,. ?

DIOAZA_UBRO_MINERIAOEOATOS\Jlbro\practlca_dlez_deteccton_de_tl'audes\QrRnlfraudN
1
FIie AZA_Ll8RO_MINERIAOEDATOS~lbro\practlca_dlez_deteccton_de_fraudes\granlftaudN db

id,nlllle,region,ta~ize,raintall,l,mdquality,tacaincoae,aaincrop ,cl61lltype,c
id601,naae601,aidl,mdo,1480,30,8,330729.0,wheat,decoaa1ooion land, 0 .1
id602,naae602,north,1780,42,9,734118.0,aaize,arable dev, , 747 3
245354 0
id603 naae603,llidl,mdo 500 69 7 231965 o ca ••••d d-
4 ___ • ecoaaiooion land 84:13. 0 •

raudN db ..; Read field names from flle l] s I


pee ff numb r offletds
L ►

Skip header characters· L~-


.._
-o-r•1·EOL comment characters
_ _ _....1.r •
r=--=-=a:-:
Strip lead and trail spaces 0 None Len Right Both

Invalid characters !) Discard Replace with

Encoding: [sir-;a~ault • )oeclmal Symbol


Dullmrte,s
Lin s lo scan ror type
~ Space Pl Comma [.,lTab 011otes
1.'!1 Newtlne U Other
1 0 Non-printing characters
Blngl quotes IDiscard
~ Allow mulUple blank dellmlters Doubro Quotes. [ Discard

i---!f■ FIie Data FIiter Types Annoteuons


1 - - -..I ~ [ C -;;j j
Capitulo 6: Apllc acionf's .
c.on d1forente 5 t,I.. .
· 1::cnicas de mineria de datos

2 para poder observar los datos, seleccione de lac ,


· conectelo con el nodo var. File Despue' . ategona Output el nodo Table y luego
. s, rea 1ice doble c1· I d b .
el boton Execute para analizar las dat ic en e no o Ta le y pres1one
observa en ella, hay 300 registros de os coma se muestra la figura siguiente. Segun se
computadoras.

1
gr1ntfnl1JdN db 1
~


5
6
_7 _
e
g
,-o- -
11
12

AnnotaUons

3. Centrese ahora en los diferentes tipos de fraudes. Una posibilidad consiste en


multiples solicitudes de ayuda de subvenci6n para una sola granja. Para atender ese
caso, agregue un nodo Distribution que se ubica en la categorfa Output y conectelo
con el nodo var. File. Luego, haga doble clic y seleccione las opciones, tal coma se
muestra en la figura.

J\ [ _ _-_
~ Field: name

Plot !) Selected fields


O All na;1s (true values)

Field:~ 'f na'!le


overlay

sort: ~ Alphabellc ) By count

O proportional scale
- Plcrt I Appearance Output Annotations

OK [ ► . ~~~ I cancel
dates

4 . Presione el bot6n Execute. Deese modo, se mostrara una ventana corno la de la ft


siguiente. Luego, haga doble clic en el encabezado de la columna Count pa ra gura
'd d d
ordenen de mayor a menor los valores y se pue d aver Ia ca nti a
que se
e sol icitudes
. . d . t que
se han hecho. En el caso del name618 hay 4 so I1citu es, m ien ras que en el caso d
1
name777 solo hay 2 solicitudes. e

v-
n1m16l 8
name777I
Pro on ,,,
1,33
0,67
Count r
••
namt601 I 0,33
name602I 0,33
namt603I 0,33
nama&o•I 0,33
name605l 0,33
nam1606) 0,33
Oilm 607j 0,33
name60B) 0,33
nama&091 0,33
name6l0) 0,33
namt611 I 0,33
namo612 I 0,33
nomt61J I 0,33
namo614 I 0,33
nam1615I 0,33

5. Basado en los datos encontrados, elimine estos registros, para lo cual seleccione los
valores que tienen mas de una sol icitud en el nodo Distribution. Luego, en la parte
superior seleccione las opciones coma se muestra en la fig ura siguiente. Asf, aparecera
un nodo Select el cual debera conectar con el nodo var. Fil e. Despu es de esto, haga
doble clic.

=m=es~,,.__--;. _ _ _ _ _ _ _ _ _ t----'-
-....:.:-
8
Pro
:.:,P:;:Drll.::::•::..
n - - -- - - -- - -----=~~. 33
coonl

name777I 0,67
nama6D1I 0,33
name602) 0,33
name&0JI 0,33
nama604 I O,JJ
name605 I 0,33
name608 I o,33
nama607 I 0.33
nama6DBI 0,33
name609 I De!MNodeforT1bl1 0,33
name610I 0,33
name61 I I 1111.,tt Nocle (boool) o,33
name612I 0,33

6. Presione el bot6n Apply y luego haga clic en OK.

@
Mode j lncluae <!) Dlscara

name = · name6l 8" or name= ·namenr

Cona111on

name
Belllnga AnnOlllbona
m r c-;,.,
/
1utulo fr pllcc1c lones con diferente~ tccnicas de mineria de datos 191

centres n I s caract risticas de la solicitud de ayuda de una sola granja. Con el uso
7
de Cl m ntm pu d construir un modelo para estimar lo que se espera : el ingreso
d un r nj n func,on de su tamano, el tipo principal cultivo, el tipo de suelo,etc.
p I pr p rar el modelado, es necesario derivar nuevos campos utilizando el lenguaje
L[M en un nodo Derive . Ahora estime el ingreso mediante una formula simple del
tipo «farmsize * lluvia * landquality». Para ello, de la categorfa Field Ops seleccione el
nodo Derive Y luego conectelo con el nodo Select. Posteriormente, haga doble clic e
,ngrese los datos, tal coma se muestra en la figura siguiente.

Oartvw II Formula
Mode • Bingle Mulbple

D rr,e vs l rormula •
Field type I -f •Default> •

'
.....
: ,~·y..._.:._. ~-~~~-.
1/1' ,.~_
·,,-,;

Funcbon Field Stora e


IS rit 81 l Id Sbing
■ Outpul Is_realOTEM) name String
Is_numberOTEIIIJ Boolean region Sbing
Boolean farmsiZe Integer
®
SelToH,g A
Is_slrtngOTEM)
1s_dateOTEM)
ls_umeOTEM)
rainfall Integer

Is tlmestam rarm1ncome Real

8. Para investigar a los agricultores que se desvian de la estimaci6n, es necesano derivar


otro campo que compare los dos valores y devuelva un porcentaje de diferencia. Para
ello, de la categorfa Field Ops seleccione el nodo Derive y conectelo al nodo Derive que
tiene el nombre estimar income. Luego, haga doble clic en el nodo Derive que tiene el
nombre diferencia e ing~ese la siguiente formula que se muestra en la figura siguiente.

Table

@ oertve •• Formula
@ !Oloda • Single Mu pie

ar_lncome

(ab:t(Ceicaincoae - e:,tiaar_ i.ncoae) / tai::aincoae) • 10~

•r Oo11eral Functions
Funcbon
rarmsiZe Integer
nrsLnon_null_lndex(US integer Integer
nalnfall
Integer
losLnon_null_lndex(US
lue_atONT,UST)
nol(COND)
MY
Boolean
..
1andqu1111y
'
malncrop
Integer

String
If CONDI 1118n EXPR1 el AIIY clalmtype String
~ ~ ~ - - - - lfCOND1 lhon EXPR1 el AIIY
Data mining - Min ria d dato

9. Para explorar las desviaciones, es util para


. trazar
. un histograma
. de. diferen eta.
. p
ello, superponga claimtype y observe s, esto ttene alguna influencta en la d. ara
. .. . 1·· d I istancia
de Ios ingresos estimados. Como requ1s1to necesano, e tJa e a categorfa Gra h
nodo Histogram y conectelo con el nodo Derive diferencia . Luego, haga dobl: el
. I I fi . . clic y
~
se Iecc1one as opciones que se muestran en a gura s1gu1ente.

@
~~ dlferencla

Fleld '/ dlferencla ...0

overlay
1

Color
,----
1 clalmtype ..[) Panel [----==---
..,[]
-·Animation I- - - .,.o'
Plot Options Appearance Output Annotations

OK I• ► Execute
- I• 1cancel
L ~ r:::
L t,pply 'l B.esel

10. Para ver los resultados, presione el bot6n Execute.

cla1rntype
arable dev
decornm1ss1on_land
60

1:::,
-- . - .. .. -~ -.. - ...
u
040
.. . .. .. ..

20
.

0 20

Enti la presente
·, figura se Pue de observa ,11 J
es mac1on con aquellos datos d I . r que existe una mayor rlifcrenc1c1 t J
esto, se trabajara con estos. e c a1mtype que son del tipo arable _cicv 0eb1t1L1
\l) •

!Ul \11) ll 1 i Il ll IIJ


'II\ q\l II 11
I\ I ll 11\ Ill\ l

·11 h I

I t
, un riudo N ur ti N •t qu ·, r,n 11r,11trr1 ( n l,1 r ,1t1,gori,1 Mod, linP. y
' ( Oi lPt t11I
I no r lyp, Oc••,pu ,, hcJP,d dobl1• cli "n ( I nodrJ N, ur ,11 rJ,.t y 1111 • ,, 0
1
1 J Ill l",irJ ,
ut, Dr r>',f rnodo ,1pdr<•c r{1 un d1,11n.1nt, r•n l,1 pr11 tr • ·,1 11,r 1,c I J 11P
' I I ' I 1'1I
•t, d 1,1n,rnlPcon .,lnodoTyp<•. 1 "

J\i u ,r11 Iv

I 111,.,, 1,"

[yptJ

14 .Lgr~g1J': ahora un riodo Or>riv, [Jr.Ha gr•nr•rar un nw•vo Vi-l lor 11•t11Pncl r,, c,r11() di1l o t'I
1alor qu~ bota r~l rnod Jo dP lrJ rr,d n, urnndl crP;id,J. P,1t,1 r•llrJ, r cmr'•c I r In .ti rl i.111 1, 1111 '
cl~1rn ;;lu ; lu,~go hag,J doblr, lie <•n <•I r1odo O<•riw·. 1)£1•,r,w'.. ,1 , rJl"'I' 11 , l,1Ir111,1 1il.i ri 111 '
'., 'J rr u~:, ra 0 n la neurn :,icu,~ntr•. r 1nrJlrrwntP, h,1r~,J r,l1r r•ri /\pply y r•r t ()I

,, •1 ,rrr t 1,,, ·,,·,I rt, 1 11 1, •1 • 1w1


' ,,, ,
, 1 "" ""''
I HI "' ' l 111 • l l' Ill(., d 11111) I I
l'J' >

6 11 : on. JI: Valida ion d •I mod< I<) 1)r·t,g


on dat os nucvo
dn irn , h · ·I r r1·.r, \ , 1
I
' • " tJ 11 ' 11 lr1 vr1l,dc1c1011 d I rnod lo er ado con
rc•i1
J JI '1 111 ' · ,t.111 1!1,1 1r!1J' ·ri I
' rl f tit p I rl t)r rlCliCcl one cl , 1tos_ I resco_d rug
1 111 e r1 1<1, r1 ·r w ,o·, ,.n • ,. ,! r
11 11 1
I Jr O I
( " , 1(
· n 11 ,1 se nconlrardn
1
11 .t.
/\hrr1 •I 1r hlVCJ, ltt·w J 1 ' '
cua ro
• ' ' "c fl r1 pr,ict1C 111 L'11nr rn ~ y 111 go guardPlo con Pl nornbre
I 11 j 1, rt IC r>•. 1ti Jr rJ>,, '

Figura 6.1 J /I od k, DwP,

Para poder comprobar si 1::I mocielo que se cre6 en el ejcrcic10 numero 3 (el cual tiene
na preci~i6n ciel 99,5 %) es confiable, se haran las pruebas con nuevos dates. De ese
rr odo, ~e pod ra determinar !:.i la precision del modelo se mant,ene. Con ese obJetivo, se
deben :.eguir estos pa O'":
~ a,. -- fl

1. J..gregue un nuevo nodo --~-~ ~ -- - _._

1ar File en pro ; ecto, haga


rJoble clic I luego busque el
;,rc.h 10 DPUG2n en donde Aq~, 4:,./ ,BP , O&OJ,.,u,roJ ,Jl1,Y,C,r 111
r.r1 , r ,JJOPJIAL ,ITT!lll,O. G32JS, ,0, 0294lS,dcu11'
:.e _r cu'::ntran lo~ datos del n ,11,IOJll!Al,,Hl ;tt,O. 91 ?~2,0, Of,234 I ,drui(
41,11,l!ff.ff,Hll;Jl,O, 1', J4 ~,O. 020193,dc"'11'
1 '= 10 ~ o-:.p, al. ~7,11,SOftJLU.-,lf,PlUL,l'J, ')~2),0,070 71,dru~
~2, r ,lflr.11,llaf<JIA~,0. ~l 0641,0. 04 '1117 ,~< '111

• I , , T;,
, ,/ (,. .
196 Data mining - Mlnena de datos
,
2. Si qui ere observar la cantidad de datos que hay en el archive'. agregue un nodot
de la categorfa Output y luego conectelo con el nodo var. File de nornbre DR able
Despues haga doble clic en el nodo Table para visualizar los dat os, tal corno s lJG2n.
la figura 'siguiente en la cual, par eJemplo,
. se pue de Observa r que hay 400 datos
ernuest ra

UG1n

[i]. ---
1
Age sex BP Cholesterol
60 F NORMAL HIGH
Na K Drug
~

/'"'
0.632 0.□28 drugY
2 39 M NORMAL HIGH 4
0.820 0.062 drugx
3 43 M HIGH HIGH 0.753 0.020 drugY
4 27 M NORMAL NORMAL 0.550 0.071 drugX
5 52 F HIGH NORMAL 0.611 o044 drugs
6 21 M LOW HIGH 0.673 0.027 drugy
7 48 M NORMAL HIGH

@
0.890 0.□28 drugY
8 64 M LOW HIGH
9 34 M NORMAL NORMAL
0.886 o06 4 drugc
0.656 0.048 drugX
10 47 F HIGH NORMAL 0.786
DRUG2n 11 38 F 0.068 drugA
NORMAL NORMAL 0.520
12 38 F 0.051 drugX
NORMAL NORMAL 0.530
13 67 M O 063 drugX
LOW HIGH 0.567
14 25 F 0.021 drugY
LOW NORMAL 0.576
15 41 M 0.071 drugX
NORMAL HIGH 0.551
16 29 F 0.022 drugY
HIGH HIGH
17 0.759 0.042 drugY
54 M LOW NORMAL
18 0.864 0.072 drugX drugY
47 F LOW NORMAL
19 0.769 O 061 drugX
74F LOW NORMAL
20 0.513 O050 drugX
57 F NORMAL HIGH 0.884 O048 drugY
Table Annotations

3. Seleccione los nodos como se muestra en la figura y luego haga una copia de estosy
peguelos en el mismo espacio de trabajo.

~
/"" [j]
-----~ ~
Table

~
NA_K
Drug_derivJdO

Drug_der!VlldO

Drug

~- - - --------- M ~s
,ptl,, JII If ,H Hlltl

4 nl 1 ' I ) n fr qut• ',<• hr1n co1 'ido cc I d


hd I iobl 11 •n I l A
O
C m (.> no O vrir. ~,I 'OfllJGJri l W'gf) prort•dr,,)
, c noc n ly•, 1 PcHcJ pocJc•r vr,r lu pr(•r,i•,16n cJ •I rnod1•lo ~n r£• r1r rl1r1
VO, d ,1 t o.,,

I
cw
0 UO I
► -----«-.;

En la figura siguiente de la part


inferior se puede observar que la
precision obtenida es de 98,5 %, lo
cual es bueno, pese a que este valor r OIi PSP All '/ and N
/ -, Rosulls ror output field Drug - - - ~ ~ ' - - - - - - ' I
es algo menor al obtenido con las
!- 1 CornparrnJJ $'✓ - Drug .vrth (Jru9
datos de entrenamiento. Correr,t 39~ 98,' %
Wrong fJ 1,5'1,
T tal

5. Realice las mismos pasos con el archivo DRUG3n. Para ello, agregue un nue.;o rir do
var. File de la categorfa Source. Despues, haga doble clic al nodo y ub,que el rc.h, 10
de la carpeta practica_once_datos_fresco_drug.
•' ........
~ --- - ~ - - --- - - -

lqe,Sex,BP,Cbolesu:rol,• ,K,Druq
2s,r,HIGH,IIIGH,0.675996,0.074834,drugA
17,r,BIGH,HIGH,0.539756,0,030091,druqY
23,ft,LOTl,ROPJt!.L,0.55645J,O.OJ618,dcugT .., ►
198 Data mining - Mineria de datos

6. Para visualizar los datos del archivo agregue un nodo Table de la categorfa Output
luego enlacelo con el archivo DRUG3n. Despues, haga doble clic Y presione el boto~
Execute. En el caso de la figura siguiente, puede observar que hay 600 registros nuevos
que permitiran evaluar la precision del modelo.

@ 1
Age Sex
2 F HIGH
Cholesterol
HIGH
Na
0.676
K Drug
0.075 drugA
DRUG2n
2 17F HIGH HIGH 0.540 0.030 drugY
3 23 M LOW NORMAL 0.556 0.036 drugY

[i] .
4
5
_6 _
24 M
74F
40 F
NORMAL
LOW
NORMAL
NORMAL
HIGH
HIGH
0.845
0.850
0.677
0.055 drugY
0.077 drugC
0.050 drugX

/""
7 32F HIGH HIGH 0.582 0.025 drugY
8 70 M LOW HIGH 0.716 0.037 drugY
9 64 M HIGH NORMAL 0.641 0.078 drugs
10 45 M HIGH HIGH 0.664 0.048 drugA
11 33 F LOW NORMAL 0.822 0028 drugY

®
DRUG3n
12
13
14
15
74F
73 M
38 F
72 F
LOW
HIGH
LOW
HIGH
NORMAL

HIGH
NORMAL
0.772
NORMA NORMAL 792
.794
0.534
0.048 drugY
0.062 drugs
0.052 drugY
0.021 drugY
16 27F HIGH NORMAL 0.555 0.047 drugA
17 62 M HIGH NORMAL 0.510 0.071 drugs
18 72 M HIGH NORMAL 0.819 0.074 drugS
19 19 M HIGH NORMAL
• Sources • Record 0.553 0.033 drugY
20 28 M HIGH HIGH 0.584 0.068 drugA

[i] Table Annotations I


0

7. Seleccione los nodos. Luego, copielos y peguelos en el proyecto que se esta realizando
para enlazarlo posteriormente con el archivo DRUG3n.

@
NA_K

envado Analysis

Clrl-X
Cop~
Clrl-C
X. Qelete
*-- -
Suprimtr

Create SyperNoae
Analysis
~ E11ecute Sele~n- ~,,; --
ap1tulo 6: \pliracione con diferentes tecnicas de minena de datos 199

8 _Finalmente, para pod er ver la precision del modelo, haga doble clic en el node Analysis
luego pres1one el boton Execute. Deese modo, alcanzara a visualizar que la precision
~el modelo es del 99 % Y, en ese sentido, ha mejorado con respecto al caso anterior.

Analysis

Dru o_denvado 8: Collapse All

13 Results for output field Drug


13 Comparing $C-Drug with Drug
Correct 594 99%
Wrong 6 1%
c~
Total 600
Drug_derivado Analysis

Ejercicio propuesto
Ahora rea lice las mismos pasos de los ejemplos anteriores, pero, en este caso, en funci6n del
archivo DRUG4n. Al final, debera llegar a la precision que se muestra en la figura .

[ ~ Collapse All ] [ <ftp Expand All

B ..·Results for output field Drug


B ···Comparing $C-Drug w ith Drug
l Corre ct 977 97,7%
'...... Wrong 23 2,3%
Total 1.000
Data mining - Mtnerfa de datOS

6.12 Caso n. 12: [ntcgracion YpartICI


0
· ·on de datos .
un modelo basado en 200 regrstros. En el pres
En el caso numero 3 se ha crea d O ent1;:
. , I . t graci6n de los cuatro arch1vos en Ios que se encuentra I
eJemplo se real1zara a in e , t a
informa~i6n total de 2200 registros, de los cuales se usara una ~a: e para crear Ur1
nuevo modelo (entrenarlo) y otra parte para validarlo. Con ese obJetivo, se ejecutarar
los siguientes pasos:
1. Empiece tomando coma base el caso numero
11 (validacion_de_farmacos_2), el cual se
DRIJIJ4
encuentra en la carpeta practica_once_datos_
fresco_drug. Abra el proyecto y una todos los
archives. Para ello, seleccione el nodo Append
I
de la categorf a Record Ops y luego conectelo
con los cuatro archives en donde se encuentran I
los registros (tome como referenda la figura
siguiente).
/
Appentl

2. Para poder visualizar la informaci6n de todos las registros, agregue un nodo Table que
se encuentra en la categorfa Output. Lu ego, enlacelo con el nodo Append que se ha
agregado, haga doble clic en el nodo Table y presione el bot6n Execute. En el caso de la
figura siguiente, se puede visualizar 2200 registros de los 4 archives que se han integrado

NA_K

l;.dlt

_ I 4 i=se,fHIGHBP
Age
()Qenerate

Cholesterol
r~
Na ~ Drug
(y

1 _ NORMAL O 055 tlrugA


0 693
2
3 - -1 15 M
37 M
NORMAL
HIOH
HIOH 0.678 O 041 drugY

~
NORMAL 0 538 0 070 drugA
!_ j 35 F HIOH HIOH 0 636 0 068 drugA
5 J 32 M NORMAL NORMAL O056 drug:<
0 690

/ "'"
6

1
41F HIOH NORMAL 0 730 O025 tlrugY
7 15 F NORMAL HIOH 0 014 O061 drug,'<
8 71 F HIOH NORMAL 0 801 o040 drugY
9
10
l 54 M HIOH NORMAL 0 650 o045 drugB
11 i 21 F NORMAL HIOH 0 053 rugY

®
7H NORMAL HIOH OOHJ 4 gJ(
11 0 627

Append
13
u
i 34 F
0H
61 M
LOW
HIOH
HIOH
HIOH
HIOH
0 736
0 504
drugC
o076 drugB
O029 drugY
15 NORMAL 0 009
50 F NORMAL HIOH o023 drug'(
16 0 813
17
39 F LOW HIOH 0 500 o025 drugY
27 F HIOH O075 druQA
18_ NORMAL 0 856
40 M NORMAL NORMAL o065 drug)(
19
20
10 F
48 F
NORMAL
LOW
HIOH
HIOH
0 820
0 621
0.840
o030 druoY
o031 drugY
.
Tablr> Annotr,t1on•,
oi<
1 r< f nndo Mr1trrx dr I
tH' 1111 t ,
td (Jgor 1a Output ,
lnbl c I1 1•11 r •I nr,do M,it t ix y ,,, ,1, Y con~ctelo con E:I riodo ,
ion • la:, ope.ion ,. D , ,.. per d. -;;g.;;
E!.,. espue:;, pre:.ione el be • E/.&

',1 Ir r,tr rJ

r ,/ °''
<'nlurnn r'f t::hlliHl"rl)I
"'J lnr,hJd1> rnt • mg .-ar 11 e~
Coll r ontllnl· Funr. o,

App IHI -
,r,

En I figura ubicada en la pa rte inferior se puede observar que las personas a ·e ~er er
un pr sion arterial High y un colesterol High son 406, las personas que te e.... ra
presion arterial Low y un colesterol Normal son 348, mientras que las perso as c~e
tienen una presi6n arterial Normal y un colesterol High son 382.

Matt x of BP by Chol it ro

fdll O Qenerate
Cholesterol
BP HIOH NORMAL
HIGH 406 362
_l,PW ~ 371 348
NORMAL J 382 331

Append

4. Cree ahora un nuevo modelo del cual usar 1800 datos para entrenamien
· t
° aa
su prueba o validez. Para ello, copie el nodo NA_K y conectelo con el nodo Appen
Luego, agregue un nodo Type de la categorfa Field Ops Y unalo con el nodo -
Despues, haga doble clic en el nodo Type y ponga coma salida al parame·ro or

/ able
®
0 ~~!.., Field
Range

e
('.) Age
r&) Sex if Discrete
~BP tf D1Scre1e
A ChOleslerol tf Discrete
AIIPeno Na ~ Range
K ~R;inge
~ Drug tf Discrete
7 NA_K ff •Defautl>

<!I view currenl ffelds view unused eld • 09 '

7
1

..

,,
203

a ace e e • e~a
CRT, CS.O, C .A 0, e rae" o t c~r os 1800 datos
el a e e · ~ ecci6 elos de I
OS e e :.1esar'o o Desp , , a
. es, co ectelos con el

___,... ~
,;_e

e ca a o e s e os , ... ego ::res·o


-~ ~ a an-e O ca a
2 - 5 'o s·D ·e -e.

C
fl

10. Conecte todos los diamantes que se han generado con el nodo Sa m pl p ra prob,ir la
probabilidad de predecir los registros en cada uno de los Cdsos f>, rr1 II , , !Pcr1onc
un nodo diamante, por ejemplo, CS.O y luego conectelo con I nodo D tos µ, ueba,
tal como se muestra la figura siguiente.

e
Datos_prueb
Drug

Drug

Drug
/
205

11 llun n d ~n,il~- i p rt n ciente a la categoria Output Y luego conectelo a


id un d I n os I m nt s, tal como se muestra en la figura siguiente.

t
e ------

-------II►
Drng

~T
Analysis

0 Drug Analysis

c~
Drug
----..BJ
Analysis

Drug Analysis

. Pr ceda a ejecutar cada uno de los nodes Analysis para que se puedan obtener los
re ultados. En la figura siguiente se observa que la precision de la prediccion correcta
e datos del modelo drug_cs.a ha sido del 100 %.

drug_chald drug_c5.0

[ $:: Collapse All


B Results for output field Drug
El Comparing $C-Drug with Drug
Correct 400 100%
Wrong 0 0%
drug_c5.0 Total 400

Analysis Annotations
OK

Por el contrario, en la figura siguiente se observa que la precision de la prediccion


correcta de dates del mode lo drug RN ha sido del 92, 75 % (h a habido un 7, 25 % de
Predicci6n incorrecta). -

El Results for output field Drug


B Comparing $N-Dru with Dru
-Corre~ 371 92,75%
Wrong 29 7,25%
Total 400
1' 1, 1n (•I cd ',(j 11I 11( I I i•, ( Icl t ()'-; I li Ill '' idtl ,(•It• ( 1011.id11 •. tit• ll lalll 'Id \'l ll\ ' I)\ I' 11 I I\ lo
•,ul>c,11•t1I 'flit' ',\'VI" ' gt'lll , 1,11 l 11111
I r )I 11 t,ciun dt d.1t111, cit• 111 ;1 1\\ •1 .i• ,llt'.1l1111.1 . l\ ti I l' ()
1 11
,H\ ,Hl,1 "" II ,;I , cit p,11 I IC ic ll 'I II ' ,, ' "'" ll!'lll' 'I I'll l,1 t l I <'J:111t.r h •Id llp \ " ""'l't,,1;
1
c 0 11 t I 11 >tin ly1 •. I tll'f ), I1.ig,1 cIO1i 1 11 y c olo Ill , Ii , v.iln 11 ', qtll' t' t'IH lit .i11 L
'n
111 1
id ' ,l({lllt flll l1J llftl ,
1 1

t' ,1111101 fl•hl

111111 h I 1111 lhl 111•11


11 1n111~ ,, rt11H111 Lt
I
I h I •r,lt 11111\10111,1 I e * 11 Oll
o IIIIU 11 tlllhUI ~
I h I f11tu t, 1 , J\1uut1,.

(-► ...
It ►

f• 1hllu11 l
AJ1110 111f I h I h1 1 I I ll I\ fin ~ 111

I II I I·

14 . /\gr
1
'f',LJC' u1111 d I cic• li1 1111'1, >II IP, )fd c p v 1·1i11t't kit, dt • ~ 111 ,, 1 'll 1'1111 1 '
cl1 p,1rtill n De Pl.It''>, lngrt'"'( I <I.it i (JlH ' ,c rntH' l1,1 11 1 11 I 1 11 :t 11 , 1 .1 :1111' 1t1' '·'
1
1
1 1
lnl or rn,1c 1 11 l11clt1yt' 10 , cl11to dP <111t11•11.11n11 1 11tti \Jlll ' r ' P i t' 1 1 11Li111'1 · ' ',, d,• t,,,\,, I '
r<·r~r,.t ro~.

- -- -~- --
. ---- . ·,

<♦ .. hh hhl · 111 1 11

I' 111111111 1
IDL I ,, 11IIU1 h 'I llh II'" '' llh•

I 1111111111111

• MIHI IIIIU
I 11111(

• •
l • I ''II· I. II I I ,,,,
•I, ,11111, 1 I I ,1, .a I,

1 I, I I 111,,,1, lt1 , , 1,
1
I ' I II I 11 I '

I If If tj

I 11ir lr111 ' 1 Ir r I 1111

Ubi u ,, n ,1rl.i 1w,rl1•l11 ll.111,,1 rl1r


d d.J lrtfJ y l111 •~r1 •,11 !1 •r r )r1t1r
I X ( !llP p,11,1 fjll'' •,r• fl.1 ' 111 '11'11
lo n d ', J1dm.-mlr• f{r1 11r•rrlr • rptr ,,11 1 •d 1
mb1r1r lo· nom~Jrr•·, rlr• Irr, rll.11r1,1111, ·, rp1 1 •
• t, 11 I
h n rrro,.1d p Jr.J ,r,( PVll,1r, 111111111,ll1·,,

J I I

I I I I


1
• ',,1.,J., < ~;;,•J:::~ . !; • · - :.> '... · r:..1-:r_ :~,:.r :P ~

-
,~.,, 1 f . ,, ~ :.. ~ : =:, ~ -· t'~ .....,- .,, .-,..1~ :c:,:.1,:_ ~ir_ ';.M ~

18. Ahora coloque los nodos d•a a E- q e ::.:e c c:: :--:; ~:-:.:: : '= - = =-
-- - - -- .:.- - :
i; ...

partesuperiorderec adel pa el e de_a c . -~[:. ::-:;-:-:.'= :: :: - _ - - .. ... -- -- --


-_...

Ilil. ~
l
◄ ----
i T~ble '

(
/
pilulo b: ph .--11 lOll s l on clil , , ,
~~-~~-~~---,__:::.:'..:.. l:_l1~
:__tt,::s~IC'C Ille., ... dt• milll'ti,I rlL• tl,,IO'i ?,09

d I pr
isi6n de los modelos con los datos nuevos agregue
o on ctelo a cad a uno de los diamantes creados. '

c~
c5.0_p
-. ~
..-.t .~ drug_c5 .0

----- @- drug_chald
@m] Sel ct

Tabl
~
► ~
RN. p drug_rn

r-···--·

~t
..- IiBJl;
CRT_p 1 drug_crt 1

20. Haga die en cada uno de los nodos Analysis para ver las resultadas. Par ejemplo, si
hace dable clic en el noda Analysis drug_cS.O y luega en el baton Execute, padra
observar que los datos han sida predichos de manera carrecta al 100 %, es decir, ni un
solo registro ha sido predicha incarrectamente.

c~ B Results for output fleld Drug


c5 O_p B Co~arlng SC-Dru wi!_i:l D~ _
drug_c5 O 'Partition' 2_prueba
Correct 400 100%
0%
Wrong O
Tq!!I _ _ _ 400

Chald_p druo_c11a1

RN_p
21. Del mismo modoI tambien es posible ver las resultados del nodo
,
Analysis drug~ch a1.d
Para ello, haga doble clic en este nodo y presione el baton Execute, as[ Podr~
comprobar que las datos han sido predichos de manera correcta con una precision
del 95, 75 % y con un error de predicci6n del 4,25 %, lo que, en comparaci6n con el
modelo anterior, representa una mejora del 2 %.

c~
c50_p
B Results for output field Drug
drug_c5.0 B Com arln $R-Drug with Drug
'Partition' 2_prueba
Correct 383 95,75%
Wrong 17 4,25%
chald_p drug_chal Total 400

Un modelo que tambien ha mejorado con respecto a precision es el de las redes


neuron ales. Este ha alcanzado una tasa de precision del 92, 75 % con datos no
aleatorios, mientras que, par otro lado, con datos aleatorios ha obtenido 96 %. En ese
sentido, la precision ha mejorado en general en un 3,25 %.
0
6.13 Caso n. 13: Columna vertebral (partici6n de datos)
En este caso se va a usar un conjunto de datos que contiene las valores de seis
caracterfsticas biomecanicas utilizadas para clasificar a los pacientes ortopedicos en tres
clases (normal, hernia de disco o spondi/olysthesis) o dos clases (normales o anormales).
Toda la informacion de este ejemplo se encuentra tambien en la siguiente direccion
electronica: <http://archive.ics. uci .ed u/ml/datasets/Vertebra l+Col u mn>.

Vertebral Column Data Set


Download Data Folder. Data Set DescdpUon
Abstract Data set contammg values for six b1omechanical featu d . es (normal
res use to classify orthopaedic patients mto 3~
1

j Data Set Characteristics: \I


Multr,anate J Humber of lnstancw. 10 I Area: IE ~]
j Attribute Characteristics: IReal ] Humber of Attrib
utes: 6
I Date Donated
1§ ool
2011 -00-
j Associated Tasks: I Classtficahon [ Missing V111
ues
? Jf:::: 11 ~ -
~ Humber of W eb Hits: 511 2A
1
,

Figura 6.13 Descripci6n de los datos biomedicos


Fuente: M achine Learning Repository.
/
1 1 f, If 111, t , 11 I 1
" '• If 1111,, 11,111, 1,1,,, Ill

cf b, m, ·di,, rJ I 1 , , li,rr
lose! I J
rJconJunt . lfl,1 /Prlr•IH,il Ii,, ·,1d,1 ,,. '1r,1l,1dr, p11r ,,j f ,r
d Motc1 Jur ll1t · 1m p , J<,d, cir• n" td . ,
H nnqll nd rt p J1r1 (,/\KC) d I r·nlr, rlr•, rir',
t;
rrir•drr ,, ,~,, r•I r ,rur1r1 d, Ir, ;1••,t11-'.·'' 11,11
f<r', I , '
It d , "' df1Lif Ir1rI 1./lr•<lt ,1 < htrlirl-'.l' ,,1 1 , d,,,.
a Ul • (Lyon, f r,in ,, ). Lo' dc1t ,, hi1n orr,,m11,rd,, ,.,, du•, l,tn·,,·, /J,, , l,1•,1f1r ,,, 1!1r1
it ' nt , p ro r lac,on rlo . L, f)r1rnr•rrJ rJr<•r1 rm•,1·,t,, r•r, < lr1•,1f 11 ,,r " lr1', r1,1r ,,,r,1,.,,
n10P rt nee, nte aun d 1. •.trr•,cr1tr-gorir1 : /lorrn,1l(HJ(Jp,1r1r•ril1••J,lw,,,,11,,rr1111
0 paci nt s)_o Espondllol1 _t , ( I O p;JC t< rile••,). Pr1rr1 1,, ,,,.1~w,d,, tr1ri•,1, 1,,•,, ,di•wir/,i•,
de o,sco Hernia Y Esponddol, ,.,,,c ,
ur11r•ron r•n imr1 ',()l,i c,t11•wJrfr1 rJ1•ri1Jrn1rir1d,1 i ,,r11<1
Anormal. De este modo, Ir "f'P,1 irirJ.1 tr1rr•r1 <<1w,i•,tc• r,n <lr1•,1f1< ,,r " l<J', fJr1c11·ritr•', < r;rw1
pertenec1entes a uno d c,1d, doc; c,it 1 ·f~orir1•,: llorrnril (100 f)r1c,,·rilr•'.,) u /n,irrr ,,,I (/HJ
pac1entes).
Cada data del pac, nt ',lrl rPprPwntc-1do c n "I conJunto de dr-Jto~ pm ·,r ,,, rJt rrbutu·,
bromecanrcos derivados d la forma Y onn1tac16n d lr.1 pPlv,,, y la colurnrw lurnb-ir (r•ri
este orden): incid nc1a de la pelvis, la incl,naci6n d · la p •lvi~, r•I aneulo de• la lord0•,1·
lumbar, sacra pendiente, radio pelvico y grado de !.poncJ1lol1:,tr-, l d , le1w•nt<· 1 ,~ .

convenci6n se utiliza para las etiquetas de clase: DH (Disco Hernia), I (e:,pondilCJli~tr•· ,, ),


NO (Normal) y AB (Anormal).

La informaci6n de los datos se encuentra en la carp ta practica tr ,cu colurnrw


vertebral, perteneciente a los recurses en linea de este libro y cuyo cont nrdo ha :,idu"
su vez descargado de la pagina de Machine Learning Repository.
En este ejemplo se va a determinar que tipo de problemas tiene en la columna v rt brcil
cada paciente. El objetivo es construir el siguiente modelo:

~
. . ..
lfrnJI
rrrn
/ 0... :--------~

~
CI s_dRS - / T1Dle 240 ® c.1n1d
_/ ' "'" ,,
--~IP"e -~ · ....
Tabla ~c

@ ~ ® CIUll
c.11
~
11,,r:r1"

~
\!::!) ----._, · Table
........____
--.____
Clmrt ,OJ
D
C0Mnn1)cc 1[!Jl ® ------► @ :-----:"'''
Sta11,11cs u11,1 ~
Paluon • ~ t,n
~ C C,5 O AAl,V,,11

@ cim ,,.,
7 Flelds
Se;ecl ~
c&R r,ue

Figura 61
4
· Modelo para el caso numero 13
I atu mining - Min rtn d • ti 10 '

( d b n 1J 11tl1r lo I ul nt pa o :
1, A .id.) un n do v, r. FIi ncu ntr . n la c t gorfa Sou re y luego busque lo
di1Loc; ciu I sc rp t pr ctica_t r c _co lumn a_vertebral. 5

[ h J
D \DAZA_ LIORO MINf RIAOElDATO \llliro\pr clli I L lurw ootwnn

I \fJAZI\..I IORO MIN RIADrlDATOOlltbrolrn cllc


l) c lore coltJmn _vortubrnllcolurnn 1L]

d n Id n mu, !tom ffl r I Op CI/V numb r orn Ida I


Bklp ti d r th r ct re O : jFOU omrnont ch r r. tr re.
Olrlp I I d nd tr II p r91 f•J Non I en r Rlgi,t r Both

Inv Ila rti r ct r '•1 Diec rd J R JJt t with I


£ncoa1ng
ro1r md f ult •Joo Im l 1ymbol (etro mdQf ull •J
Dr1t1111n
I I Op Cl
11
Line 10 c r, for typ soJ: j
0110111 ·
l-'1N WIina I I Other
I I Non printing Ch r ct r
Olngla quota rDI c,trcJ
Douhl quotos Diec rd
I I Allow multlpl1 hi nk lJ llmll ra

f flt t lyp • Mnot lion

nco1 J
---------------------~-- j-----
L PPlv ti,

2. p r vi u liL r lo data ,
un nodo t ble qu s ubica en la cc1trr,oric1 Ouput
y on ct lo con I nodo v r.
I t I coma s
mu str n la figura s1gu1cnl<' en la
CUc I pu•d vl c;u lizar qu xlst n 3JO r islr os y
Lspondi loli t Is}. cir. s (Normal, 11 rn1a y 1

11u1, ,., ,.,r,,f n• I 1111


JO J4 l JJ ~ ◄ I 1JN U/1
HIJ
IH~i , 11,u 11 ~ IIIU
rffffij 4h 11ft
'~lft
IIJ Oh I
J'I 104
~,,J OU
IJ
41 lM
IJ,
" ' 1411
I IT 1111

/ '"
4h 41h II IIQII 1ft I /4
ff NII I /0 lln4
4Q 100
l'J h~/
,,.i,,.... I IIUt1

.
I 10
.,, ,,,~ I ill ~ .. II

.,,o ,,,,
'1 ~,IJf

hi/
II f~M
111-·m
J\Jll ~
ft 4 I
I I 114
JI 'JI
,~,
1144ft
lh lh
4111111
~. J Ill I
Ill JJ
11 ft/ II
11ft MIi I
I 111111
•w u1, IN ll/n
I~ IJUU
◄◄ II~
,,. ,m, II AIW
U 1111 ,,, j tl,f
I 1800
II I 411
r4 ,ei JII II rJ
I II" JI 111 111 ◄ J
•'i 111,j I J IIU
lll'JI 11 1,u I Ill JOII
◄I WU< I j til / 44"111 IJ INIJ
~ I UII J81J(Jl1 I 4f -~~
ill I JI I ◄ /ft/
1 I JI 11/ 4 ◄
11 44/ II Nt•, lJ 111
4~ ,~, •• 1/11 114 •M
,~' J 11~ nn
Jj . 4, IJ "~ '
ll IJ/ 4 41 ",I J
fl '°PIO lllit" ◄ fi
/ft"''
"'"" IJ I 4'
- - - - - - - -- ...
apitulo 6: Aplicaciones con difer t .
en es tecmcas de mineria de datos

ie los valores al campo Class. Para ello use el nod 0 0 .


3
cam b conectelo cone I no d o var. . '
File. Luego haga d 0 bl .
erive de la categorfa Field
ops Y d fi . . ' e c 1ic al nodo De rive e ingrese
valores presenta os en Ia gura s1gu1ente. Note que cu d I I
10s . rel valor de NO. an o a case es Normal se
le va a as1gna

..,. Oass_d

@ Derive as Set

@ Mode (•) Bingle O Mulllple


Derive field·
jc1ass_d

®--- Derive as· ( Set :J


Field type l~ <D~li:_3 Default value· j default
Set field to If this condition Is true
NO class== 'Normal'
DH class= 'Hernia'
SL class= 'Spondylollsthesls'

Setllngs Annotations

4. Afiada ahora un nodo Type, el cual permitira elegir los valores de entrada y el valor de
objetivo. Para ello, seleccione un nodo Type de la categorfa Field Ops y conectelo con
el nodo Derive Class_d como se muestra la figura siguiente. Observe, ademas, que el
parametro de salida es Class_d y no Class, debido a queen un paso anterior este habfa
sido cambiado med iante el nodo Derive.

Class_columna

@ L---------
i► I Read Values Clear Values Clear All Values

@ Type Values
(26 14 792
MIS;,;; r Chetk
None
f
, 1n
Otrecuon

(-6.554948 None ,.. In


Class_d Class_colu (1 4 0,125 None In
(13 38893 None ',. In
[70 08257 None '.. In
[-11 .05817 None ',. In
Hem1a,No tlone rl ne
tW,DH,SL None Out
-_ ::.a e--- se eccio ar los da os de entrenam iento, agregue e o:::o Sa
a ,..~:eg - a ecord Ops y conectelo al nodo Type . Luego, haga d ::>le c
e · g ese os lores que se muestran en la figura sigu iente. 'o
6 pply y I ego la opci6n OK .

d • S1 o'e Co et

oe

·a os o
e os q e se e cuen ran en la categoria od
- ..,":o0, CO" ec e cada no d II
e e os con el nodo Sample co

. ,.
,·1I;j1-.
'I 1•11 I ltflilr, 'dl, 11.i/ 1,I I It, 1•11, I 11, 1I '
7 I let I ' 111
rl, ,, " 11 , v..,.1, , , 11 ,, 11 , 1. , 111 I( 1, , 1, x. , 11 ,• 1r1, ",, , " 1
qll ,1p.i11 /t ,1 l,1 1Jt1tl1• ',llp1·tl<11
llJl dl,1111,11111• I'll
ti• fl I It.I di• l,1 p1 ,l.ll ,I Mnclflh, I I •,rill, ,,, v111•lv,1
11

c1I oclP HI, lio1g,1 rile 1•11 1·1 l,"l ,11 ti ·n·rlu, y
11
,,.1,.lc 11 111 l.i L p, 11·111I x,11111• I fl1• 1, , r111 •v.irrn, 111 ,.
nu ,1p,11r 1co11J11 ll.itr1.i11t1• c 11 l,1 p11rt,, 111 p,·rl, 1
di• 1,1 pt •,tc11 ti Mod, I•,. 1.i v •rll,111,1 d1·IH• ••,t,1r
( 1, ,t
d1 p11 t,1 ch 1 l,1 •,l1 ul,•nl · 111,1111 •1,1 :

8 J\11,1d111m 1111l'V rH clc .irnph' y c < 11(•c I Pio um 1·1 11 odo ( Id'.', ulurnn. A ICJ ,, ·vuicJ h· P,,J
dohl1• c.11 ,11110d .irnr>lt• l 1111{1< 11,c• 10 1, v,-1IOfC!', qw· ,,,. rnur•,,lrt1n <·n lo ,,lgul ,~t. ft lffr-~ •

.. IJ 110 d prurh

•J ,lrnpti, r r,mpl

.""''''lnr hJtl~ ,rnplt

I(,,rnr,lr I 1r I

.J 1 lri n

------......... ~ 6&11tnQ',

OV r
/lnnc,t llorie

r ar1tfll

9- Conect
1nodo Sampl con los diamantes que se han generado tanto para cl modclo
cs.a c.omo para el mode lo CRT y luego conecte un nodo de Analysis a cada uno d lloc,.

r· .. -
e +--. c,.,,_,
---~ c .

C,Jass_d I SC-Cfa%_d
:u:.i~'3 de pruabaJ ~.,

Ctaes_d
~
1
.• , , l 1111 ld l.i111,11H1 ll. 1•,•· dd1•l11111l111ll)
I. 1u1' , l ) r 11 ,,1•1•l• 1

l\t Hh I l11 ) lll \ I ,1 llHllh•h II\\ t•·· I 111111.d dt• dd11d11 •' llll l I

, 1 n r 1, Ul\.1 ,,t .\I hil ., , 1.1 \ ,,

' ll I ill • II

di!

II
lI t 't •,Ult, hll nutput fh•ld I 1•,•, d
Il lltllP HIil J $ \. I n,•, d vVltl1 d
\.lltltd .II
Wr 1m1 l ,•
it,t 11 ,qi

11. Ha ad bl Ii Ind naly_i


ll I iidrn int d d1 111 H1th 1IP t Hl 1'
Id ,., 1 11
ese m d , podr b
del 50 y I un
c 1d1dl>I d lildu ,1 q111 h,1\ 11111 11 1H
I 1 1 1

Cla s_d II

d
1111 t t I
W1111u
I nt.11
Class_d
An IV I
l · f rt1 1 n qu , ,<' ncu nt
r . ul t l , y hi . con l I ra en la categorfa Field Ops para poder
0 con I nodo Clas
'
l1• p 1rt, 1 n · s_co1umn . Despues,
,
haga
lngr los va lores mostrados en la siguiente figura.

Ir rhllon
• rr In nd 1 1 rr,iln, t I rnd v lldatton

V lue - [•1_Entrenar"
___ _,Vc.1lue - f 2_Prueba"---l
_ _ _ _ ] value

lu

App nd I lJ I 10 tem tloftned values

rt e d 123•567 : Oen r te

13. Enl ce I nodo de partici6n con el nodo Select, haga en el doble clic e ingrese las
valores como se muestra en la figura siguiente. Tome en cuenta que puede agregar un
nodo Ta bl para ver la informacion implicada.

•r m,a SelKt
-- -----
@
. ----~-- Mode. <•) Include , _; Discard

® ► @ Partition ='1 _Entrenar'

rt1Uon

·r Condition

~. Annotations I
Table
Settings
L t,ppty J Beset
OK cancel
--
I.

r I I It1 1

t 1 ~lit ... d1 lll1 .11.111 . 1., ,,1 11t1cll1 cll.1m.1111,


1 n I, l ~ •11 t t • \I~ t I I \I dr I t 'c 11, l I I 1 • I 11 c 1 ' II l'
"" 11' pd ,. l l I) t I lit ell) Chi

I! ~ 111.in I I 1)1 tin d, Pill lll ll 11,11 tlt)dc ) ( I, l I, li11 • <) 11. 1 ,I cl q~)l1 • ( llr
1111 I ti I I 1111drJ ·,, Ir rt
il1Hp11 I 1·, .ilu,, · 11)1)· l1.1d11• 11 11 l.1·,111111 111, 11 lit.I ,
1

I ) 1111 htlf
I ll I '"

I tlllh 11 1 'I I lilt , 11 1,

I •U111ilh111
Cap,tu1o 6: Aplicaciones con di /
ferentes tecnicas de rnineria de datos 219

Anada al panel de desarrollo los diamantes cs.a


17· conectelos con el nodo Select. Y CRT que se han creado y luego

_ ___....._ ~ ~c~
~ C5.0

Partition
Sele c t ~

~.T

C&RTree

18. Conecte dos nodos Analysis para poder observar la precision de las resultados con
respect o a cada uno de las modelos.

~c~
® ------► @ ~5.0
Analysis

"''"' ~
Partition

C&RTree Analysis

19· Ahora anal ice las resultados que se han obtenido del diamante CS.O. Para ello, haga
doble clic al nodo Analysis que esta conectado con el diamante antes mencionado.
~era que se ha obtenido un 81,82 % de prediccion correcta y un 18,18 % de manera
incorrecta. A partir de ello, podra deducir, entonces, que el uso de un nodo de partici6n
en la selecci6n de las datos ha de mejorar las resultados con respecto al nodo Sample.

GEiie fdll
1=7o11apse All j~ Eipand All
B Results for output field Class_d
t~ 8 com arf~ SC-Class d with Cl!!SS_d
C5.0 Analysis 'Partition· 2_Prueba :~
Correct 63 81,82%
Wrong 1◄ 18,18%
Total 77
I) t mlnlns • Mtnerla d dato

. 0 1 <' 1 tH y l m J) 0 lin I n lie los resultados que se han obtenido dei dia
• r ' , . ' rna nte
R1_l1.ir 1 II , lldg dobl cli c n I nodo An alysis que esta c_onecta_do con el diarnante
i1nll rn 11 I nr do. D sa m n ra, tal c~m-~ mu estra la figura s1gui~nte, Podra Ver
(JLI h obt nido un 76,62 % de pred1cc1on correcta y un 23,38 % incorrecta. A
µ 11 tir d to, podr d ducir, entonces, que el uso de un nodo de partici6n en la
I 16n d lo datos h d m jorar los resultados con res pecto al nodo Sample.

B Results for output neld Class_d


B Com_earln $R-C lass d with Class d
'Partition' 2_Prueba
I Correct
Wrong
59 76,62%
18 23,38%
Total _77_ _~

0
6.14 - ....~,...,, n. 14: VaJi la i n cn1zada
Ant r liz r un jemplo al respecto, se dara una pequena explicaci6n de lo que es la
v lid ci6n cruz d . n I validaci6n cruzada el metodo realiza una partici6n aleatoria de
d t p r formar k subconjuntos disjuntos de aproximadamente igual tamano. Cada
p rH 16n utiliz dapar valuarlosclasificadoresgeneradosapartirlosk- lgruposrestantes.
i I p rtici6n str tific da, cada uno de los subconjuntos contiene aproximadamente la
ml rn r I ci6n d I s qu los d tos originales (Borra & Ciaccio, 2005) .
ri I t bl Int rlor s pu d obs rvar 10 iteraciones (subgrupos) . De ca da iteracion 9
ub rupo v n u r P ra I ntr namiento del modelo y un subgrupo servira · ' corno
lc1 prn b d I ml mo.
. . , n hecha
r s v c I ul r coma I m di ritmetica de los errores de cada 1teracio
t t n run uni or ult do.
0
n · nd m Jor I nc pto nt s m ncionado, suponga que t,e · ne a20°
I
H qu 200
r I lro Y h;i r ~117 do 10 p rti Ion . sto qui r d ir qu c da partici6n ten~r 0
80
r I ro Y n d un d I it ra Ion s v n h u r 9 subgrupos (es dec1r,/ ara
re' ,I tr ) p, r, I ntr 'n "i ·nto d I moci lo Yun ub rupo ( s decir, 200 registros P
li1 pr u b 1 d I m d I .
r ,., V1lid, tion un t nl qu redes
' h uliliz do con m t odos basados en
n 1W II 11 (lh llK & I, ,o ; Liu
ol., 2008), N ar st N ighbors, Fuzzy, etc.
.. I

Ill ',lllil'lllptl'

rf l I
-
l1 I
-- -~
k
- I]
~ ,-
10
--~ =--- ·-=
1 1 s 11 I 8 I I()
,1
- - I=
'1 1, I H I) I()
I
11
- -
-- -
I R ') I()
1- ~
-
-
l 2 3
,_ '1
-
l
1,
-
I H I) I()
--
2
-
I
0 I l I H 'J !fl
- ,- 1~ - -

1 2 ,1 ', Ii 7 H ') l()

1 ~ 4 r I I) I()

r Il l
1 2 tl b 7 'l
·----

1 2 '1 ( I I rl

Figura 6.15 Subgr upos it r ciones


Fuente: el autor

1
Despues de haber realizado esta explicaci6n, n c saria parr r liLM I j ,nr,lo rl
validaci6n cruzada, se va a usar el archive que s ncu ntra n I,, rp l 1/prt lir ,1
trece_integraci6n_datos_drug. Luego, proceda abrir I stream d nombr int ra i6n
de_farmacos_libro y guardelo con el nombre integraci6n_d.., _f 1111dcos lillro, till como
se muestra la figura siguiente.

integracion_de_farmacos_libro_validacion_cruzada• • Clem ntme 12.0 --~-


Elle fdit insert 'J.iew Iools

1}\
"El ~
----------IE\
NA_K ®
• l"bro
1
Figura 6.16 Archive integraci6n_de_farmacos -
. mo ,·........na de datos
Da a mm ...o - •-

e e lace e s c a-,. a c s • - ~- 2C? 2


A con ·nuaci6n, se a a
o T pe. o e se ar-a e" a e a..,:e li :a :sao i::l•
nodo Deri te A_K al . . 1. e:
pasos:
0 0 2
1. Seleccione de la ca ego 'a odeli g e odo CS.O a~ a 2 e " T •- · -veg , aga
e ra. E e o re e ,.,.., ce co
dobleclicenelnodoCS. 0 co ose e a~c°o"e_ · . . ~O.
CV. Despues, ac . e la casilla cross-valida e co 6 2 2

2. Haga die en el bot6n Execute y se generara un diaman e con el mismo nombre e


se encuentra en la parte superior derecha. Luego, conecte este diamante co el n
Type en el panel de desarrollo. Haga doble clic y vaya a la pestana Summa. Alli o ra
observar el grado de precision del modelo (100 %) y el de error (O %) .

..,, CV

- - - - - 1... ~

C
pitulo 6:, plical ion ron d'f
L--~---~--~--~=.:__:_'~e'.:.'r...:e~n~te:=s~tecnicas de rnineria de dalos
/ 223
desea saber cual es la variable mas importante . ,.
3 51 st
,nfenor Models. En ella podra observar que la va~:b~ e modelo, d_1ri~ase a la pestafia
ue gen r6 n un nodo Derive Na K L e _(c~mpo) mas 1mportante es la
5
~re!>iOn rtenal). - . a segunda mas importante es la variable BP

0 Qen rate (/":[tew

1•.985 ( Ill dru I


BP= HIOH (Mod drugAI (40,)
Age •= 50 I Mode drugA I c:::> dru
Age • 50 I Mod drugs I c:::> drugB Variable Importance
8 BP= LOW I Mode drugC) c,21) Taroets : Druo
Cholesterol= NORMAL ( Mode dru
Cholesterol= HIOH ( Mode drugC I
BP= NORIIW. ( Modo. drugXJ r-:> dru
~K ► 1,,985 IMode. drugY J c:::> drugY 8

0,0 0,1 0, 2 0,3 0,4 0 ,5 0,6

,,..._· -----~
Model Viewer Summa Sellin s A ons

4- Si desea visualizar la precision de otra manera, agregue el nodo Analysis que se


encuentra en la categorfa Output y conectelo con el diamante CV. Entonces, siguiendo
con el ejemplo, vera que hay una precision del 100 %, algo que se obtuvo solo cuando
se creaban los modelos a partir de la evaluacion individual de los archivos.

C5.0CV

[ $: Collapse All -]I 'l\p Expand All


B -·Results for output field Drug

c~
CV
- B· comparing $C-Drug with Drug
l Correct
L... wrong
Total
2.200 1 00%

2.200
o 0%

Analysis

I Field Ops • Graphs e


ltados obtenidos con el modelo que tien
cion d IOS re Su I e el
'> H ,1 ,1h r i I I rornp,.Ha . donde se han hecho la union de los cuatro archivos
10
DRU 2n Y I arch. ~ bt nida es de 99 1 5 % con un error de 0,5 %. ·
Unt n ' , v i ,\ u la pr c1s16n o
a ys s
~ Analysis of [Drug] #22

~ 8£lle ,~
orug_derlvado i Collapse All I' Expand All J
9 ... Results for output field Drug
e . comparing $C-Drug with Drug
: Correct 199 99,5%
L... Wrong 1 0,5%
Total 200

En I figura sigu iente de la pa rte inferior se observa que la precision que se ha obtenido
d I 100 %. Ello indica que, si se hace uso de una validacion cruzada, ent onces, los
r su ltados van a mejorar.

C5.0CV

[ I: Collapse All ][ ' Expand All


B -.. ~esults for output field Drug
B ~omparlng $C-Drug with Drug
c~ I Correct 2.200 1 00%
CV t . Wrong 0 0%
Analysis
Total 2.200

.15 a o n. 15: Trabajar con pocos r .


eg1stros
Los r ultados qu se han obtenido h
t
porque s ha trabajado en fun . , aS a el momenta han sido bastante buenos, p~ro
ntonc , s saber que pasarfa s·1 clio_n fde grandes candidacies de datos. La cuestion,
a in ormaci ' , rno se
omport rfa I va lidaci6n cruzada . on a considerar es pequena Y co
poca c ntidad de datos d acuerden leste tipo de casos. Para ello se va a trabajar _con

quinc _po os_d tos.
o a stream u b'ica do en la carpeta
' llamada pra'ctica-
,1pit11lo fr Aplu , ion f• ( 011 (!if
ff•11tc•s tl!c nk a,_ d
/
e mlneria de datos 225

oa r1do
, ,11 c•~to, c, r •,1l1zr1r n lo,; ~>igtJicnt s pases:

1 At>r c I ,1r hIvo f, rmt1c ', libro pocos- d at os.str Y vaya a I .


( prtrn r Pd, , , r gur un nodo Sampl d a parte final del proyecto
0111 e e la categorfa R d ·
1nodo ryp ~. Lu go, hcg dobl clic al nodo 5 ecor Ops y unalo con
1
llll'illt' . [ OJ,1 Id opc16n Random y deff amp e Y calaque las valores de la figura
1 na Ia para el 17 o/c0 de tad I d
1 ,JIJdC id, I d d tos supere los 30 registras. os os atos, sin que
1

• 1rnple

•;Ir.elude· ,rnple
,e mpl~ Flrtt

1-ln-n

• R,Mom'I>
l'!J M· 11mum arnplw ta,

----+--e IRedueclon de d

lu 8e1 randorn 688d ,01 no1 ;


Ba11Jng9 Anr,l!Ubons
~ Cancel ~P~ '' Bes~! ]

Para cambiar el nombre del nodo Sample, vaya a la pestana Annotations y ponga el
nombre Reducci6n de datos. Si desea observar las datos que se han obtenido, agregue
un nodo Table de la categorfa Output.
2- Conecte al nodo Sample llamada Reducci6n de datos con un nodo cs.a de la categorfa
Modeling. Luego, haga doble clic al nodo cs.a y coloque los valores coma se muestra
la figura siguiente. En el nombre del modelo ponga RDCS.0 y active el casillero Cross
validation . Dejelo por defecto en 10 particiones y, finalmente, haga clic en el bot6n
Execute. A partir de ello, se va a generar un nodo diamante con el nombre RDCS.O.

--
Model name: O Auto 0 custom LR:::..D.;...C5:..:...o_ _ _ _ _ _ _---!

0 u se partitioned data
r··· .......... Output type: @ Decision tree O Rule set
------►► &; O Group symbolics
O u se boosting J11r ro
RDC5.0_ Number of folds.
0 cross-validate
@ Simple O Expert
Mode:
1'J I r 1 , ff

II ,lttlrt!J tJtrtrrt rt

,, .. f

4. Pr v rI Ile

p w r.

P.IJ< ,.o
I If r, ) g,n11ai. t/VJw,

K - I ◄ , IA1 I MwJu t111w,<1


ll1 1 - lflGII jMruf~ 1fltJUAI r:, 1fr11u11
nr 1(/tM IM"''" •h•w' 1
VI l Iii 1,11p111 I Hitt•
IIQI~ Jijrlll 111/l!MN I M•11h1 1JJ11
ltlll l~r•1I - Iii" H IMr111 11,11111 I I rrJ I IJ111t;1
llJ1 - ll()r1M~I PMrrl~ llflJt/i'I 1 1 11/11
, NA • 14, ,~, 11,1,i,,~ '"'"Jfl , • ,1,,,v1

1),1/
,..-..---,---,---,
11 , rJ,~ r/ ,~ ~.
I,, , , 'l
/
<on d,t r nip te ni a cl<' minrria cle datos 227

ru be el mod lo er do con los 2200 r gistros para despues visualizar los


ora d Para llo, prim ro n t I nodo 2 Reducci6n de datos con el nodo
ulta
rype,
;g~ h g dobl ch · I nodo S mple 2 Reducci6n de datos y coloque las valores
rno traludo en I fi ur i u1 nt . Notara queen ella se han considerado los 2200 registros.

I [1te Q. n rat Y..1ew

Drug
·-- .. - .
'' Noda O
'
'' Categorfa % n
''
'drugA 13,333 4
: ■ drugs 0,000 0
: ■ drugC 13,333 4
: ■ drugX 26,667 B
'' dtugY 46,667 14
:___________ T________
: Total 100,000 30
t::

NA_K
I
<=
I
14,341 >14,341
I
Noda 1 Noda 7
Categorfa % n Categorfa % n
drugA 0,000 0

6. Como s1gu1ente
. . . , de datos con el nodo diamante
paso, conecte e 1 no do 2 Re d ucc1on
Rocs.0_2.

2 Reduccion de datos

@I
\::I Simple
sampleme lh Od t:\ O Complex
s1m,1lo Samplo
Mode: Ci) Include sample 0 Discard sample

IE\
\51
Type
---i1
-.•e
. 12Reducclon d_e ~a
sample ® First
0 1-ln-n
2200J:l

() Random%

r , rri

rr J
T
Settlngs 1 Annotations
[Ejl r Cancel )
dato

con un n ly I
m nt antes m ncionado con un nodo 1 bl

~
/ TblO
I!!\ -----t►► e ► C ► B]
~
2 R ducc1on de d tos RDC5 0_2
T

a oble chc en el nodo Analysis para poder visualizar la prec1s16n de los aatos de
rueba coma se muestra en la figura siguiente. Note en ella que la precision es de un
9,55 , hay un margen de error de 10,45 %.
G E1te fd1t

Lil l I: Coll pse"'

/ Table e Results for output nerd Dru11


e Compann $C-Dru wltn Dr
Correct 1970

~ ,~
RDC5 0_2
- ►
1
Wrong
· Total
230
2 200

9. n es de seguir trabajando con el nodo Analysis, revise la informaci6n proverda par el


nodo diamante. Para ello, conecte dicho nodo con un nodo Table y luego haga doble cl1c
en este ultimo. Una vez hecho esto, podra observar que existe una columna Drug que
represen a las medicamentos reales de cada registro, una columna $C-Drug que senala
las alores predichos de los medicamentos par cada uno de de los registros en relacion
a los valores reales y una columna $CC-Drug que indica el nivel de confianza de cada uno
de estos registros. Estos campos proveen informaci6n importante para el nodo Analysis.

T.iile 00 fields, 2.200 --.xds) S4

~Elle • fdn

✓~ 1
2
Na
0.693
0.678
Drug
0.055 drugA
0.041 drugY
"
NA_K $C-Oru11
12 509 dru!)A
$CC-C,ru
0 556 •
ROC50 16 603 drugY 0 789
3 0538 0 070 drugA
4 7 713 drugA 0 556
0 636 0068 drugA
5 9 283 drugA 0 556
0690 0 056 drug)(
6 12.412 drug)( 0600
0730 0025 drugY
c~ 7 0814 29182 drugY 0 789
0 061 drug)(
ROC50 8 0681 13 411 drug)( 0 600
0.040 drugY
g 0 650 17 058 drugY 0 7B9
0.045 drugs
10 0.853 14 475 drugY 0 789
0 041 drugY
11 0 627 20 831 drugY 0 789
0 051 drug)(
[i] 12
13
14
0 736
0.584
0889
0 068 drugc
o 076 drugs
12 218 drug)(
10840 drugC
7 636 drugA
osoo
O556
0 556
0 029 drugY
/ Table 15 0813 30 635 drugY 0 789
Q023 drugY 0 789
16 0580 34 961 drugY
0 025 drugY
17 0 656 23.151 drugY 0 789
(~ 0 075 drugA
18 0 829 8 736 drugA 0 556
0.065 drug)(
!ro<:5 0_2 18 0.621 12. 736 drug)( 0 600
20 0 038 drugY
0 840 16.387 drugY 0 789
0 031 drugy
27 100 drugY 0 789 •
/
Capftulo 6: pht d< lon<'s c 011 dil
, e, e11t . te ni ac; de mincria de d to
229

egue el nodo An lysis y conect lo al nodo d'


1° ,A dr Analysis p ra obten r I informaci n t iamante. Luego, haga doble clic en el
6 , aI como se muestra
no O . ., I fi
se observa que la pr c1s1on d I modelo ha sido del %. en a gura, en la cual
89155

Analyiis of (Drug] 11

E,dlt

[ $: Collapse~[ ~ Expand All


El Results for output field Drug
El Comparing $C-Drug with Drua
' Correct 1.970 89,55%
Wrong 230 10,45%
Total 2.200

11 . Si desea acceder a la informaci6n de los resultados por cada uno de los campos,
haga doble die en el nodo An alysis yen la parte inferior agregue todos los campos.
Despues, presione el bot6n OK y luego Execute.

C ..,.. Analysis

CR ml [ ~--
~ Analyze $C-Drug

O Coincidence matrices (for symbo Select Fields


□ Performance evaluation
-Sort-by:-@-- - -
t!!atural O Name O Iype
O Confidence figures (If available)
·1ir hol fr, I 90 Ij
li!'l, JrC1' 1rr , ir1 , I 2,0 f] (;holeslerol

Find predicted/predictor fields using


@ Model output field metadata
l"ffll 0
~ Field name format (for exampl

Table ~ Split by partition


D User defined analysis l 1J 1 1iM

Break down analysis by fields:

output Annotati ons


1j fi~sel
► execute l t
[. 8PPIY
~a~eTJ
-- - ---
I 11 l,1 llt !lid I/ 1111'111 1 •1'

1111, II, 1111 ',1'I V,11 ""' I' 11, 1111111 II II t dll

I I"·''''' f "'" 'II


1
1 1 '.11111111
11 II I111 /Ill

d1 l\l'(i,11 •,1,,11 ,1111,111111•,1),,I II 1,, ,111 ru,1111111111n Iii 'llflU


1111
1•1101 I' I ,1 q11 •11, II ( I 1, , I '',,)
1 [ I 1 l~UI lfl illf
, 11111u Nlll11i1111
, , '111111111111
11111 II ·, 11,' 111 .ii' d ',11 d1• l.1 · I 111 1111 I I Illl /1•1 11,•1 'I,
W11111u J IIJ lll,4',%
d1• 1111·, pr, 1•,111 111 1•, .i1l1 •1Li11••, 1111 11 J Jtlll
l , 11111111 II •,, 11111 ti, 1tl1•.1 IV, 11 11 I 11111111111 Id I 11110, 11111111111 l,v llulll ' 1 ,
q111 •, f ll ,1111lr1 I I 11tl, , l1 •111l 1P, 11 h1 I
11 I 111111111111 I 11111 1111 IJllllJ
tllll, 1 1 11•11111 , •• , ti, · 11 , I I 1',1 I 1111 if Jf l(J II I, II' I
w,1111 I IJJ lll,1111''1,
" tlll1•11•111 l.1 d1 • 111,1111111 111 1111 ,, I II' Ill
11
l 11l1 1 ',h'l1>I , .. , 11111111 , d ( 11,/ 11) 11 M
"
11 I lllllf' Hlfl I l•IIIIJ Wllt1 IJJIIU
, 111,1111 11110 1111,11,,;,
w ,,111u IJ(j I U,111 1'1,
111111 I I IIJ
11 1111111111 rl Ill I II IIU, pll1t111u 1,v 11111ct 111'
11 Ill' 1111 II
I I I llllfjl Hill , 111111w1ll11J1u
I Ulf I I fill I /U,4 I'~,
w,,mu Ill I 'J I, ~7',
1111 ii 71 fl
11 Ill' t11W
I I 1111111 1111 ( IJ1 11 WIiii 0111
1 11 lrll IHI IJU I H J,IJ I'~
Wn>IIU IU 4, I/'~
= = ~ - -_..,

1;1 /\'1111,1 v11,•lv.1 ,I"·" dt1lll1 1 1111 ,ii 1111tl l 1\11,dy•,I•, y di IIVt l.1 •, ( .i•,lll,1 1, ., gun 01110 v en
ILi 11,,111.1 •,IHIII •11 !1•,

/\11 Iv I

J\il l'(lt1 I f lllfU

Ill 11111:1 (1111 v111l111lh I 1uul l


1•1:111111111 Ill l:IV llt 111111
,.,,,, 1111011 111
nu111
I
I
tr ,, 11 V II "'"
Ilit, ''""""'
IllI. '•111111111
111111111\/tl 11111 I V
,III. l11hl
11,m] I 11111 pltHtll I 11/111 1111 lr11 n ht 11 1111,1
I
I hlt1 M11il I 1111111111 Ot1hl 111111 11 I
I > t I hi II llltl 1111111 I 1111 11 1111111:1, 'II, I 1uul lhthl 'l
11111 tiv 1, 111111111

1
llllpill I >\tllllil 111111

1 llh• 11 I Ill Ill _l\ppl~ JL


1
11 lltc I nh t, 111h ,, "" mh11,, 1,1111, 11,111"

LUego, haga clic en. I b t ' n ut • PJ11 1 1 1,i lllld v 1 11l.111t1 t u11111
13. la rno strada en la figur nt n~ldl 11 qu, Id 111 1 l•.lu11 (I ,1 1

"'II I cit 10, l s . I 1111111 1 11pt111 '1


modelo ha sido d . d ,55 f .I
reco nocer la m tnz on u n I v.i I 1 1 1 11 inn I , I i•, vt1I >1 ,, ,,
reales con los valor pr di h n I qu 1 11 lt 111 , 11 d1 up, t •,t •
1

han predicho de man ra corr a y i 111,111 1 1 lnr I It' 111 I/ (t·11 v •1


de reconocerse como _dru h n id pr cil h · !1 UH Y) , LJ11 ,1 1,n q11 , llt1
11111
la atenci6n es el med1cam nt dru I c, h 11 ,ldu pi •d ie Ii 1
de manera incorrect , 1 1 v c 111 d1 u, Y. I • , ,111 1ill 111 t•I
medicamento drug Y s pu d ob rv I I
predichos de manera corr t . Ad m b
rendimiento es mayor n I dru Y, d bid
ha realizado la mayor cantid d d i rt , d ci J Ill , 11 lict h11hldo
ningun acierto, no existe el d to ac re d I r ndlml Im rl1 t1111 1 111 1 R. I 11 1·1
cuadro tambien se puede obs rv r I inf rm d I I l 1 (llll' I l'IJI (' '1l' J1l;1
el nivel de confianza y muestra la m di d I i I 1( 11 ( l )', .
l I

Bj Analysis of (Drug) #-1 [


~Elle

I: Collapse All
8 Results for output field Drug
El-Overall Results
El Comparln $C-Dru with Drug
1
j
I. .
Correct 1.970 89,55
Wrong 230 10,45
Total 2.200
e.
1
·Coincidence Matrix for $C-Otu row
drug.A, dru
how tu 11 )
r1n,
I drugA 226 0 0
drugB 161 0 0
L ... drugC o 199 o
drug)( 0 0 565
dru Y 0 0 0
~ Perfo;~~;ce Evalu~t'.~~m
I drugc 2,321

I' drugX
dru Y
1,304
0,741
El· Confld~ Values Re_port for $C Dru
Range
Mean Correct
Mean Incorrect
Always Correct Abov 0,1 8 (D
Always Incorrect 8 low O,' (0
95, 15% Ac cur cy Abov
2 OFold Correct Above _ _ _ 0 1( , 6
Data mining - Mineria de datos

It do most rado anteriormente, haga 0 J ' c.


s,• desea ver en un arc h,vo
· b el resu a , .-
14. we . h . en la pestana Output y luego lnPri:.- ·
· f r or aga c11c
al nodo Analysis, en la parte in e ' __ c.. , • - J.

valores, tal como se ve en la figura siguiente.

Analysis

~ ~alyze SC-Drug
Output name @ Auto 0 CuStom
l.. Output to screen 0 Output to file r

FIiename. E:\DAZA LIBRO_MINERIAOEDAT08tllbro\profundtzando_nodo.,

FIie type: Ihtml document (".htm0 _:j

Ouardar en: ID profundizando_nodo_analysis _:J

Nombre de archivo: ;:r::::es=u=ll=ad=o=s=


.h=tm=I======================~
Archlvos de Vpo: Web Pages (".html; ".htm)

Guarda·

► Execute 8Pply

15. En el nombre de archivo ponga la ruta con la cual se va ha guardar el archivo / e'" e
Filetype coloque la extension html. Despues, pulse el bot6n Guardar y, por ult , ,o,
presionar el baton Execute para que se genere el archivo en forma to html.

C CJ file:///E:/DAZA_UBRO_M1NERIADEDATOS/libro/profundiza
Results for output field Drng I

Overall Results

Comparing SC-Drug with Drug


Correct
Wrong 1.970 89,SSX
Total 230 10,45X
2 .2ee

Cowc1dence Matnx for $CDrug (row .,how actuals)

drugA drugA drugc drug)( drugY


drugs 226 0 0 13
druge 161 e 0 7
drugX e 199 0 17
drugY e 0 565 32
0 0 0 98B
Performance EYaluauon
drugA
drugc 1, 682
drugx 2,321
dr11gV 1,304
0,741
onfidence Values R.cpon for$
Dmg
/
Capitulo 6: Apllc~ciones con diferente, l;.. .
'i ccn 1cas de inmt>ria <le cldtos 23'.>

6.16
ca.so n. 16: R gla de a ociaci6n y dependencia
para la explicac,on de es~e caso, se tomara en cuenta lo dado par el Clementine, en el
ual este e1emplo se refiere a datos ficticios que describen el contenido de las cestas
~e supermercados (es decir, colecciones de artfculos comprados juntas) y las datos
ersonales del comprador, adquiridos a traves de un programa de fidelizaci6n. El objetivo
~e este ejercicio es descubrir grupos de clientes que compren productos similares y que
se puedan caracterizar demograficamente a partir de criterios coma edad, ingresos, etc.
Este ejemplo ilustra dos fases de la minerfa de datos:

, La asociaci6n de modelado reg la y una pantalla web que revel a vf nculos entre articu-
los comprados .
• La inducci6n de reglas CS.Ode los perfiles de las compradores de los grupos de pro-
ductos identificados.

La informaci6n del archive se encuentra ubicado en la carpeta llamada practica_


dieciseis_reglas_y_asociaci6n. Los atributos que se consideran son los siguientes:

Basket summary:
, cardid. Loyalty card identifier for customer purchasing this basket.
, value. Total purchase price of basket.
, pmethod. Method of payment for basket.

Personal details of cardholder:


• sex= sexo
• homeown. Whether or not cardholder is a homeowner.
• income
• age= edad

Basket contents. Flags for presence of product categories:


• fruitveg
· freshmeat
• dairy
• cannedveg
• cannedmeat
• frozenmeal
• beer
• Wine
• 50ftdrink
' fish
• co,~
n1ecnonery
Data mining ~ Min ,ria de datos

1. Como primer paso, ffjese en las relaciones que hay entre los productos q e se
comprado de la cesta. Para ello, ca rgue los datos de un archivo que se e a,
ubicado en la carpeta practica_diecis<eis_reglas_y_asociaci6n. Luego, aiiada 10 ra
var. File de la categoria Source, haga doble die y coloque los valores que se rnu ~ dc
:c~,n
en la .figura siguiente. No olvide que si desea visualizar
, los datos coma en Iose,casra,,
0
antenores, solo agregue el nodo Table de la categona Output . s

.. Buketdn

® ~ Rerresh
E IDAZA_UBRO _MINERIAOEDAT08\Jlbro\pr-.lt11ta_dteusels_reglas y :no: .:;,, Gn'IB;;•

File E'.\DAZA_LIBRO_MINERIAOEDAT08UlbrolpractJta_dlet1se1s_reglas y asown.or Ea$i'E

cetdid,velue,paethod,~e-~,hoaecnm,1nc~,aqe,truitveq I fre~hll~at
- I a.1.'C"j
dA' rtr,y

39BOB,42.7123,CW:OUE,H,W0,27000,46,Y,T,T,r,r,r,r,r,r, r,T ,--


67362,25.3567,CASH,r,H0,30000,28,F,T,F,F,r,r,r,r,r,r,T
10872 20.6176 CASH! HO 13200 36 FF FT FT T F 1 ~ 1T1 ~
◄-~------------ , 1,, r r
" Read fleld names rrom flle D Specify number orlields
Skip header characters: --~opj-
,-1 : EOL comment characters r==:::!:.:.;
Strip lead and trail spaces: 0 None O Lei! ') Right C, So1h

Invalid characters· ® Discard O Replace wrth


Encoding: Istrearn clefault ...JDecimal symbol. [ Stream default ...
Delimiters- - - - - - - ~ Unes to scan ror type 50 I~
D Space [!] Comma □ Tab ouotes- - -------
1
@ Newline D Other I
Single quotes: Discard • l
D Non-printing characters Double quotes· !;=::o=
,s=
ca=r= ::::!l
d = =...
0 Allow multiple blank delimiters

~~~~~~~
e
s , So
~~~~~t~~~TJ:~Ie;~::..:.
An~n;ota;li~on
: s ~ = = = = == = = = ~
Cancel
tiPply

2. Como siguiente paso, agregue un nodo T


el nodo var. File. Despues, haga dobl l~pe de la categoria Field Ops y conectelo con
coma se muestra en la figura siguiente c ic en el nod O Type Y modifique los valores, a,
e.
'°" Type
®..•
'\·
Field
EJ Clear Values
Clear All Values I
Type
cardld Values Missing
Range Check Direction
0value , Range <Read,.
None 0 None
00 Pmethod ~ Discrete
<Read>
None 0 None
00 sex ~ Discrete
<Read,.
None 0 None
lAJ homeown :v
[.✓
Discrete <Read,.
0 income <Read>
None 0 None
, Range None 0 None
◊age , Range <Read>
00 fruitveg [./
<Read>
None 0 None
;;, Discrete 0
00 freshmeat None None
00 dairy ,.,~
Y
Discrete
Discrete
<Read,.
<Read>
None Both
00 cannedveg V,
:v Discrete <Read>
None Both
~ cannedmeat ~ Discrete <Read,. None Both
~ frozenmeaJ [.✓
<Read> None Both
~ Discrete
~ beer 7 <Read,. None
Discrete
~wine None
~ Discrete <Read,.
~ sondrlnk av "Read,. None
Discrete
~fish
! Discrete <Read,.
<Read,.
None
None
< None
I nodo
orno

se ha colocado en 90
roductos, en este caso, la

I
1eo 100
0,1fa mining - Mincrfa de cl.tlO!>

n la cat gorf Mod ·lin° I 1J


· · b' do
4. Ahora agregue un nodo A priori u ,ca . ,,. r•w1, tJr,,,1r1
nodo ~ ,pr~c~ri / rm••,,,Jrtr- ,.1
I
con el nodo Type. A continuaci6n, haga cl'.c en el en
r
baton Execute. Esto permitira generar un d1amante quc .d b1·• d - Ir.Jr a ,tr, r rJI Prinr-l rJ,.
desarrollo y darle doble clic con el fin de que se pue da visua. ,.car O'" rr.:'.",IJf ,J(JrJ', (,, r.r)r
la vista sabre estos, note que cada vez que se compra com1da con~Jr;lada I i<•w,i;,1<-,
enlatados se suele adquirir cerveza. Esto sucede en 173 instancias
. qu • rr fJr<•', r,r,t ,J- (I ,;J·
17,3 % del support, es decir, el 84,393 % de las veces. Tamb1en obs rv qu _r,u,mrfo ,,.
compra vegetales enlatados y cerveza se sue le llevar comida congelada. [r;t o ',U<J·dr: ,:r·
167 instancias que representan el 16, 7 % del support, o sea, el 87A25 % dr• l,J', irn~,
Apa rte de lo mencionado anteriormente, ffjese ademas en que cuando •,r•- r•or·r-tpr;i · '·
cerveza Y comida congelada se suele adquirir vegetales enlatados. Esto '..UU.:rfo 1/(J
veces, lo que representa el 17 % del support, esto es, el 85,882 % de las IJF ce:~.

ll fields

l ~JEiio () Qenerato r,
@ +
+
~~
- - . . . . . i..

11 Fields 1 J jSort byfConfldence % • -, f


Conse uen1 Antecedent tonMence ~.
rrozenmeat beer
16,7 87,421
cannedveg
cannedveg beer
17,0 85,082
frozenmeat
beer frozenmeat
11 nelds 17,3 84,303
cannedvea

Model T Settings Summary AnnotaUons


CE]['" Cancel]

:!Ello Qenera10

port by[ Conndeneo % • r• l [3 Jot 3


Con1aqu1n1
frozonmeal Antecadeni ConndenCI
beer
cannedvog 16,7 87,425
cannedveg
beer
eer fi'ozenmeo1 17,0 85,882
beer
rrozenmea1
cannedYQg 17,3 8 4,393

~,,
•beer ec. d IS
r ;..,: , f
• confacbonery Oda~"• meat • c.,nnedve Model 8e111ng9
etra,hmeat O ry fish g umma,y Anno1m1one I
Osoftdnnk - ~~:nmul etnJlt\<eg ~ Cancel J

,.,.,,,
0 20 ,qc, 00
, e!i'''1•11
100 120 1'10 I I '
100 111) 200
<apU ulo 6: Ph a ion s con diferentes tecnicas de mmeria de datos

10 posterior, use el nodo GRI. Para ello, anada un nuevo nodo Type, conec elo con
5
!nnodo var. File Y haga doble cli~ en el_. u_na vez que haya hecho es o, coloque los
atn butos como se muestra en la figura s1gu1ente y presione OK·
.,. ,,.,,,_<,!U

@
~-
Fl••lrJ Type
• r. rdld Range
# Range
Set
Flag
Flag YES/tlO
income J> Range (10200,J0
age , Range (16,50)
Wrru1tveg JeFI g T/F
Wrreahmeat Flag T/F
~ dairy Fl 11 T/F
~ cannedveg Flag T/F ro e
~ cannedmeat Flag T/F one
~ rrozenmeal Flag T/F r,o~
~ beer Flag T/F
~ wine Flag T/F
~ so1tdr1nk oe Flag T/F
IA] nsh <» Flag T/F ',. n
~ conrecbonery oe Flag T/F ',. "

6. Agregue ahora el nodo GRI de la categorfa Modeling y conectelo con el nodo Type_GRI.
Haga doble clic al nodo GRI y luego presione el bot6n Execute. Esto generara un nodo
en la parte superior derecha que nose puede desplazar al panel de desarroll o.

Model name. !- .Auto O Custom I._________, -


t
Use parbtloned data
9ex nlmum antecedent support(%) l=j :l
==O=,o=!I=:
nlmum rule confidence(%) ! 50,0 ff
Maximum number of antecedents =' ==3==lf=
:
Maximum number or rules . 1 100~ :
~ Only true values for nags

Model Annota~ons
field9
l~el
I 11.11.i 1,,, ,, ,,,,11, 1,11 1•, 1,l,11 11 1,1,,., d1•I 111,d" ,l 1 L l1i1µ,d rlul,1 1• '1 11 d i w,d11 q,J,..,,.
,, ,
1 , q, ,11 , ,., • . ,, ,,., , di 1, ,, 1,-1 ,p,1• 1,,.,,,, t ,,,,ri r1r)trdirr• •.<·1 f •,11 1 pi•rr,, 11 1r,j
11 111
1
11 1 11 11 11 1111 1
11'.11,d1,.,, 111'. 11 ••.,,11.111,,,, 1.d, 1111111 •.1 111111••,11,1 ,,,, L, (lp,w,1 ',1µ,,w·rt1<· I Jt1 ,1 1<·1 fu,,,1,, ,j
I .,,,.., 111,11 • 11111• c•tl I I ltl ,1·,111111 ,, • lldlldll ,,, , '<1111r11,1 U·t /l !/d, 'if• ,1d,~1Jt(•rt• 1,1rr,,, (rt•' ,I , j
1
/ 1 ,tt 111 c I ,l,1L1di1 I •111 1 t 111,r 1 ·,1•td ,, ,,I l, l % di·I ', /1/J/IOI I y r•I Yo d1 • l,1 •, / NJ•', , f'<ir fJlrq 1(J{J
1.,,1, 1, t I ,.,11d11 •,c• I I 111,pt ii I,., /1'/d, •,1• i1d'11ll1<t I· f 1/1 rtlrld I (),iµ,r•lr1dd Y H'W·L dr•', 1•nl,1LJd(y
I •,111•,1111•d1• l/11111•11• 11 1•• ,j1<1 l, 1 t•I lt1,( 1'½1 rlr•I '1/1/J/JfJf{ y r•l 'J(1,'1H % rjr, l,i', 11•<_1•',.
1
1

100,0
~,
11,1.1 1(/f/,i/
111,11111111• I
•1 l111, 1111111 I
I llllbl//Jll,J i,1 411,I I
,,,,,.,
Ii/ lri,.11111• I
1,,,,..111,,,.~, 1,11 IJll,l'l/

•I ''""'
I ,ll///f/1/IIIJ
111,,.,,,,,,,. I H ,li 11h,'ill

11111•1
i,/ ,1~111
I 1111///il//#/J I, I 'l'l,11'1
111,1•111111~~,
1,,,11,,.11
'"
11 11 f)t1,l,l1 •tr1<1 rJ1 , I, •1 r<•gJI 11 ,,, 0111 ,11 ,H 1.,I , Jt 1
rr1,1•, 1 ,, ,,,, 1, /.i , ,, 1, ,1 ,, ,. , , r 1
OIJ(• ' {'
, ' J rtO ', rr11J<·', t ran I,,, ,J,,1-,,,;o
I "(• ',/•/() ..
'-,
I 111 1111 1 1 1 1 IJt fl() IJfJ'llf /( 1 1I j
I ,, ) I
11 1', 1l 11', ', 1 1rr, /!I"' 1 dd tJ,, 1 , ,, , ' • ' ',r,,1 qw• dfJ,Jr<!/ ldlt rri~,IJ', pdril
1 111111 11I 't1l111ll't I ' ,r.,1 j
I 1 'r, ,
1
111 ,d,, /.,r I 11,- 1,,,,µ,, 1,,i"" 1 1
1 111 • II ' ' ' "' d lrl ti Jdo lypr• v c.onl•r.1r•lu con r.l
1
, I r, I I I I I I' t) f I t II id I I ,
d1 //IJ(/, •,r•f, 1 1 111111 11, ir11i1••Ar, 1 I
1 YJJ V c.,unlw, < I v,dnr rk•I c,m1pn ,,r.x
' 11 JJ;IH" ,1g1Jlt•111,,,

I I I t I ~,,., j I I 111 I'll I l11


,.,,,,.. ,,,
I ,,,,,,.,,,,, I 141 I t1 '~ 1,111 tp,,

I 11111111/ ◄
11•111•
11,,,,. () "''""
I J 11,,11•
I /'1<(11 /- I J /11,11&
111,11•
flJI• It, I .I~
fl II 1•1 ,,,,,,.
"'''" (
fJ11I
11m,w
II 1111111, 111 ,,,,,j,., ( IH,hlll
fllJ/,1/J ( J ,,,,,,.
,,,,,,.
1111110
J. ,,,
IIIUt,fll, jjl'I /lt;f,J
'"
///

Ill 'I
,,, ,,. ,,
Capitulo 6: Aplicaciones con diferentes tA . d . ,
t:Cnicas e minena de datos

9. Agregue ahora un nodo SetToFlag y conectelo con el nodo Type_GRI. Despues, haga
doble clic en el nod~ _s~tToFlag Y coloque los valores, tal como se muestra la figu ra
siguiente. Esto perm1tira crear dos nuevos atributos.

SetToFl119
~
►~ @ [ - -
[@][®]
sex

~
Setflelds:
Create flag fields:
!ii> sex ....[] se~ F )(

~elds
It] Fleld name extension· I
Add as: 0 Suffix O Prefix
I
sex_M
~
Avallable set values:

~]
(3
~®!
[setToFlag True value: IT I False value: IF I
0 Aggregate keys:

,, -
~
...I
X

• Modeling I Settings I Annotations

:\ /i5\. I OK II Cancel l I 8PPIY JI Reset )

10. Luego, anada un nodo Filter que se encuentra en la cat egorfa Field Ops y conecte lo
con el nodo SetToFlag. Despues, haga doble clic al nodo Filter y elimine el cam po sex,
coma se muestra la figura siguiente.

Filter

@I
11 Field [yj Fields· 20 In, 1 filtered, Orenamed, 1

Field FIiter Field

value ---+ value


fields pmethod ---+ pmethod
sex
homeown ---+ homeown
Income ---+ Income
age ---+ age
frultveg --+ frultveg
----+ fresh meat

® Filter
freshmeat
dairy

® View current fields 1


--+

View unused field settings


dairy
V

FIiter 1 Annotations
[ Can~ I ] [ pply ese
)IJ O llata mining ~ Mlnerla de dato

11 . Vu ~Iv '~adir un nodo Type y coloque como parametros de salida los carnpos
S x M y S · x F como se muestra la figura siguiente. Despues, agregue un nodo GR!
con ct lo co~ el ultimo nodo Type que se ha creado, haga doble cl ic en el nodo GR;
y pul x cut .

Type

®[
v~J
~
_:J '!J [► Read Values Clear Values Clear All
Field Type f Va~ Missing Check DlrecUon
11 Field value ,
Range (10 007,4 None ~ None
Set CARO,C,A None ~
~··"'''
homeown
Income
Flag
~ Range
YES/NO
(10200.JO
None
None
~
~
None
None
None
ldG
age ~ Range (16,50] None ~ None
~ frultveg 09 Flag T/F None '.. In
~ freahmeat O.Flag T/F None '..In
dairy 09 Flag T/F None '.. In
cannedveg 09 Flag TIF None '.. In

~
~ cannedmeat 09 Flag T/F None '.. In
frozenmeal 09 Flag T/F None '.. In
• ~ beer
[;s] Wine
0. Flag
09 Flag
T/F None '.. In
Type.__ T/F None '.. In
~ sondrlnk 09 Flag
~ fleh o•
Flag
IA] confectionery o. Flag
T/F
T/F
None
None
'.. In
'.. In
T/F None '.. In
~ sex_F 09 Flag
A sex_M 09 Flag
None 0 Out
None Q Out

En la figura siguiente seven los resultados y se puede observar que se han generado
reglas tanto para el sexo masculino coma para el sexo femenino. Asf, se tiene en total
61 reglas, una cantidad distinta al caso anterior en el que solo hab fa 32. Un detalle
que se puede advertir es que las personas que compran cerveza y tamb ien adquieren
vegetales enlatados y comida congelada son de sexo masculino. Esto sucede en un
total de 146 casos que representa el 14,6 % del support, de los cuales se cumple el
96,58 % de las veces. Tambien es posible notar que las personas que compran vino Y
confiterfa son de sexo femenino en 144 de los casos, lo que representa el 14,4 % del
support, de los cuales se cumple el 86,81 % de las veces.

@ ~~ sex_F & sex_M


[s1 J of [s1
Confidence%
cannedveg
frozenmeal 14,6 96,58
beer
cannedveg
beer 16,7 89,82
cannedveg
frozenmeal 17,3 87,86
frozenmeal
beer 17,0 87,06
Wine
confectionery 14,4 86,81
frozenmeal 30,2 69,21
frultveg
Wine
4,4 95,45
/
apitulo 6: Aplicacione con diferentes tecnicas de rnineria de datos 2 41

hora haga lo mismo tomando el cam po «modo de pago» coma salida y dejando a
12· ~s dernas valores en su estado normal. Para ello, anada un nodo Type y conectelo al
nodo var. File Basket sln.

® ~@]
,. -
Field
. [►
r
Re dValuea
l'tPe
Clear Values
Values
I Clear All Values
MISslng
j
Check Direction
Range
Range
110150, 109884}
cRead>
None
None
None
~ None
-
Set CARD,CASH,CH None C) Out
sex Set F,M None ~ None
homeown Flag YES/NO None ~ None
Income , Range 110200,300001 None ~ None
age , Range 11B,50J None ~ None
Basktlsln ~ frultv1!g Flag T/F None '-.. In
~ rreahmaa1 O.Flag T/F None '-.. In
00 dairy Flag T/F None '-.. In
Wcannettveg o» Flag T/F None '-.. In
~ cannedmeat Flag T/F None '-.. In
frozenmaal o» Flag T/F None '-.. In
~ baer Flag TIF None '-.. In
w1ne oe Flag T/F None '-.. In
~ softdrlnk oe Flag T/F None '-.. In
00 flsh 0t1 Flag T/F None '-.. In

0 View current fields O View unused nald settings

13. Como interesa generar regl as p ara cada una de las formas de pago, af\ada un nodo
SetToFlag de la categorfa Field Ops y conectelo con el nodo Type_ pago. Despues,
haga dos veces doble clic en el nodo SetToFlag e ingrese las valores, tal como se
ve en la figura.

SetToFlag
1B.
\:El
Type_GRI
SetroFlag ® '-------- -------'-'"'"--1

Set fields. Create flag fields:

pmethod .,.!] pmethod_CARD

~ Field name extension


~----~
@ sumx O Prefix

®
Available set values:


l:+l
Type_Pago SetToFlag (3

True value: T False value:


Aggregate keys

Annotations
Cancel c-;P~ Reset
242 Data mining - Mineria de datos

14. Anada ahora un nodo Filter de la categorfa Field Ops, conectelo con el nodo SetToFla
e ingrese los valores que se muestran en la figura s_
i guiente. Note queen ella se elirnin!
el campo pmethod, debido a que se va a usar el tlpo de pago por separado.

FIiier 1 er
g

®
Fields 21 In, 1 filtered, Orenamed, 20

---
i;._--=---==F-le....::ld' - - - - - - r - - -F
- llter T Field
cardld cardld
value value
' j pmethod : ~-
--t11►...- i/;!\i
®
--
sex sex
I'2.f, homeown homeown
etToFlag L. FIiier __.] Income
age - -+
Income
age

-
frultveg frultveg
reshmeat fre shm eat
dairy dairy

~ View current fields v View unused field settings


FIiier Annotations

OK [ Cancel 1 l 8PPIY

15. Agregue otro nodo Type de la categoria Field Ops y conectelo con el nodo Filter.
Despues, haga doble clic en el nodo Type y coloque los valores que seven en la Agura

Type

®
,. Clo rValue f Cl r All V, lu
Field
cardld 7 Range
Type V· IUII
[101 ',fJ, 1II
T Ml Ing INon h ck Dir ct1on
~ None
,.
value , R nge •P 9• Non 0 Nun
~ sex Set r i t~onu ~ Non

8
homeown Flag fl:' ltJr, Non 0 tlon11
1 Income ~ Range II flJOIJ 11 Nnnu
Type age , Range [1 ,'.iOI Non
@ frultveg rt g r,r Non In
~ fre shmerd Ft !1 l 1I Non J In
~ d try rt g 1/f Non In
~ c nnedv g ti g r,r tJun
~ c nn dm •I fl 11 l ,r llunf
frozenm , t fl ,g 1/f tfani
~b r I U
~Jwtn
fl "
,, tJon•
t~oru,
~ on.dunk f I ,g in tlot11
L.\I nsh Ft g n tlon
b\J cont cuon ry rt II TII l~llr,t
~ pmethod_C fl g Tl Non,
~ l)m thod_C rt g Tlf tlon
/1, pmoltlOd C fl
• view curr nt n&td v, wunu
" I lur,
/
_______________0_n~<H
_ f_,_r_e_nh,,; t · < nic, s dci mineria de ctato 243

con10 ultimo pa o, nad~ un nodo GRI ~ la categorfa Modeling y conectelo con el


16
•1r11no nodo Typ · D pu , r lie un clic n I nodo GRI y presione el bot6n Execute
~ara qu s v1 Uc Ii n I I , I coma se muestra en la figura siguiente.

H & pmethod_CHEQUE

49

Support % Confidence %
cannedvag
7,3 53,42
cannadmeat
pmethod_CASH frultveg
cannedveg 1,6 68,75
canned meat

©
od_CARD &
pmethod_CASH freshmeat
cannedveg
wine
1,8 66,67

pm ethod_CAS H dairy
sondrlnk 1, 1 72,73
confectionery
pmethod_CASH cannedmeat
frozenmeal 4,0 55,0
beer
pmethod_CASH fruitveg
freshmeat 1,2 66,67
frozenmeal
pmethod_CASH freshmeat
11 Net !:GO
5,5 50,91
ca nne dveg
pmethod_CASH dairy

Tai coma se ve en la figura, se han obtenido 49 regla s entre aquell as concernientes


a las que pagaron con tarjeta, al cash y con cheque . Es pos ible advertir que quienes
compran came enlatada y vegetales enlatados hacen sus pagos al cash. Esto se da en
73 casos, segun el support que es de 7,3 %, y se cumple en un 53,42 % de las veces.
Por otro lado, las que compran confiterfa, pescado y carne enlatada hace n sus pagos
con tarjeta. Esto se da en 21 casos, segun el support que es de 2,1 %, y se cu mpl e en
un 61,9 % de las veces. Finalmente, se evidencia que las personas que compran frutas,
vegetales, came enlatada y cerveza realizan sus pagos al cash. Esto se da en 19 cas os,
segun el support que es de 1,9 %, y sucede en un 57,89 % de las veces.
6 17 0

· Caso n. 17: Regresi6n logistica (telecomunicaciones churn)


~aregresi6n logfstica es una tecnica estadfstica pa ra clasificar las registros basados en las
1
0 ~?r~s de los campos de entrada . Es analoga a la regresi6n lineal, pero toma un cam po
telco cate gonco
Jetivo · · en lugar de uno numenco. ' · Este caso uti·1·1za Ia ruta denominada
·
dispo~~~tn·str, qu~ hace _referencia al ar~hivo d~ ,datos te_lco.sav. Estos arc~ivos estan
siguient es en ~I d1rectono Demos de la 1nstalac1on del cl1ente de Clementine o en la
e ruta : hbro\practica_diecisiete_regresi6n_l ogfstica .
n 1 llf) n do P
It ·11 ·I y ul , Uf' ·I rc.h,v

2 /\ con 1nu c16n, r, u un nodo Typ · y con ·c clo con El nodo,.. p:;~. L Kg0, ;:;e,;; 000 e
clic I nodo lyp y pon lo v lor <, I corno ·mu.:~ ra n la fig ;ra : ,g J '=r ~e. Er i;:;~;;
m1 m fi ur V qu lo qu. ' ' ii r ~111,.rndo r cambiar ~1T/pE rJE: c;:_;r; ;.; ro r;e 0:
c mpo I Typ Fl , d b1do qu c; os. c:.ampor: oman ~fJIO do: 1alort::. Po" ~ o, :r:
I cc1on n todo lo CtJmpo~, · hac · clic rJ .r _cho y lu •go ,.e 12:coge I;; ope ~ Fag

► •«"•, f ,It ,v u•
ftr••

., ... 1'J-
.,,. I J..
•,,IJ 11 ..
.. ,, ~.
.. ~ ]-

... ,.. ,·:-


•f,• t'I •

i,1t ,,i ..
/
aciones ron diferentes tecnicas de mineria de datos 245
-------

corno siguiente paso, pon,ga como para metro de salida el cam po churn y coloque a los
3
· dernas campos coma parametros de entrada.
Range ~o 10536051 None 1,1. In
~ Range 11 749199854 None ~In
, Range 12 734367509 None ~In
, Range 11 011600911 None ~ In
~ Range 12 701361212 None "\. In
~ Range
Set
Flag
12 197224577
,. ,
1/U
.. None
None
None
"\.In
"\. In
· Out

View unused !leld se nos

Form;;! .Allnotat1ons

Canr.el r APP¾ Ii Beset

4. Anada un nodo Feature Select de la categorfa Modeling y unalo con el nodo Type.
Luego, haga doble die en el nodo Feature Select y presione el bot6n Execute.
Aparecera, entonces, un nodo diamante en la parte superior derecha, el cual debera
arrastrar al panel de desarrollo.

ct.um

3<:ife,t in mode' ~fl e1ds ra ,.e~

@ 0:E;.-,m_p_o_rta_n_t- ---,
[J [±]' Marg nal !cu off 0,95 :
F===::;:=!
0 ~un·mportant jcU1G:r! 0,9:.;

mpo aHa orea·er ar


B;,se :ns l,-¥<i !JS potta~ce) 'o• cirt.~go ca ped ctnrs on
'!, ~s;;•,,,;, L~.e iOOd ra' o O Cramer's V Lambda

F e _,,_ Odl: r;p• O"S ,. ; ens


= - - =- ::: - 1"""-:c-::=--
a: ---------
- . . . -= - -

--·= ,_ ---~ ,a

- .:, -- =- -::,
;-
e

C
con uaci6n, real1ce una pequena auditoria de los da os. Pa'c e 2-=== ~- -~--
Da ..a Audit de la categoria Output y conectelo con e oao Fi'~e~ ge-e-a::: e
1 =-=
a ora ene el nambre caracteristicas importantes. Deso es, ag2 .... .., c: ca - :.:::: ==
a di aria de las datas y presione el bo 6n Execute para deso egar ~ -a . 2-:a-2 2- =
e se mos raran algunas resultados por cada cam po como va l '"ES ,.....a -- s =.:
-,2.:
i il'T'os, desviaci6n estandar y cantidad de valores. E la par:e ·,....ce_ - _e 5 -a~::::
aga cl1c en la pestaf\a Quality y coloque sobre la columna := c --::: e:e. _,es:_::.:
haga doble die para ordenarlo de menor a mayor. De esa rna eo eo a e ....2--:.::
les al a valores. Segun la figura siguiente, el campo logtoll solo e e e - ,,::1 -: :e =~=
1alores, las cuales suman un total de mil.

I
Ufi.)oi
-
·-~--
Ot.,..

-
e/'bW

,_
,_
o......

,_--
Fat
0-
,_
·--
],_
F-

I-
', ,,.
21
9,-

--·- :

-
,_
f-

.. -- ,._
Fad
,_,
0

ONor-.
-- ·-·-"-
II •I Il I l )~ ·1 I) • p ify
n Hl l.

o. Coloque ahora los valores, tal como se muestra en la figura siguiente. En la opcion
Impute when determine que se tomen tanto los valores blancos como los nulos
(Blank & Null Values) . Al mismo tiempo, en el Impute Fixed Values establezca que
se considere la media (Mean). La selecci6n de la media asegura que los valores
imputados no afecten negativamente a la de todos los valores de los datos globales.

... Imputation Settings

Field. logtoll Storage: ·• Real


Impute when: [ Blank & Null Values ..,. j

Impute Method:
l-1
[ Fixed ..,. ]
Impute Fixed Values

FiXed as. [ Mean


u ~,...,......,.,..~~- -

OK Cancel j[ !:J.elp
_d
/
Capitulo 6: Apli acionec; con d'f
1 .
erentes tecn1ca de mineria de datos 249

ere el supernodo de valores perd.,d Ub' . .


11. Gen os. 1quese en el nodo Audit y selecc1one el
carnpo lo~t~II. Luego, en la parte superior seleccione la opci6n Generate y escoja la
0 pci6n Missing Values SuperNode coma se muestra la figura siguiente.

~
Extremes Action Impute
Missing Values [Iller Node ---1
0'-
t-1-on_e_ _....,;,.;;,,;;.:;,___ _ _...,J,._B-la_n....
k -:-&--I
N
Mlismg Values Select Node ONone Never
------ ONone Never
ONone Never
6 None Never
Never
ONone Never
Never
Never
Never
4 None Never
~ Range 2 0 None Never
~ Range 11 3 None Never
, Range 8 1 None Never
Ran e 20 4 None Never

12. Luego, aparecera una ventana ~ Missing Values SuperNode


en donde debera colocar el
Generate SuperNode for:
valor de 50 % como se muestra
en la siguiente figura. C.!) All fields O Selected fields only
Sample Size (%): I 50 faj
OK Cancel ]

13. Haga die en el bot6n OK para generar el supernodo que debera unir despues con el nodo
Filter de nombre Caracterfsticas importantes, tal coma se muestra en la figura siguiente.

···-······-····1

i
I
f' i

!81i1
l
!I
!...churn___ !

----◄►► @ ----11►► @
telco.sav c,ra,t"'T" tmpo.. Missing Value lmputa..

churn 27 Fields
Aun I n

t,m.1 I 1 , t I •-.p111 , lltt' n h 1 • 1 lie •n utput y coloque los


1

lI 111u ",I 1,1 I'll I I t1 :111 .i 1gull 11t . P ,t 11 , m nt , hagcJ cl1c n el


II I \ 1t l ll,h 'll ,, l II ll l t' Ult'

ll, I
I 11,
l l 111
/
Capitulo 6: Aplicaciones con diferentPs t"' . 1 d .
""c n a e m111C'ria <IP rl;it o.., 2'> I

el supernodo con el diamante que se ha generado llamado churn


16. una .

O@
churn

------► @
.. ,..

telco.sav
.,..,.,vl"m'"" fchurn

churn 27 Fields churn

17. Si desea analizar un poco la informaci6n que provee el nodo diamante churn, haga
doble clic en el. Asf, podra observar en la pestana Summary cuales han sido escogidos
como las valores de entrada asi coma el campo objetivo, el cual, en este caso, es churn.

chum

~ - - - - - - - 1 , --,[=G=
~=E=lle= =O= Q=
en=e~ra-te~~=:~::~
- ~- - -
lL: .,

~[ ~ .Q.ollapse All II 'ilp f)cpan~


B -ra Analysis
! $-·D Analysis oftelco.sav (24-mar-2015 17.1 1 36)
I1 l!1 •Ll Analysis oftelco.sav (24-mar-2015 11·1 1 44)
II;)•• (a Fields
B ·fo. Target
I L. o» churn
-
j
~ ' 8--fo, Inputs
- I L -, tenure
/-- , employ
i -~~~~-- l Oil equip
• o» callcard
1 , cardmon
II 1- o» voice
II l- o» Internet
I , .-, lnln c
III BUIid Settings
1B Training Summary

Summary I Advanced I Settings Annotatlon'J


Data mining - Minena de datos

18. Sise ubica en la pestaf\a Advanced, puede abservar que se han incluida las 1000 cases.
Sin embargo, con respecta a las casos perdidos nose ha incluido ningun elemento.

chum ~ . ,..j
,--- ..
r GEiie-- .
Qenerate
@I-- - ·- - -
f@ffi
l.l
[!I
...
Case Processing Summary

,-.
Unweighted Cases(a) N Percent
Included in Analysis 1000 I 00,0
Selected Cases Missing Cases 0 ,0
Total 1000 100,0
Unselected Cases 0 ,0
Total 1000 100,0
a. If weight is in effect, see classification table for the total number of
cases.
.~

Dependent Variable F.ncoding

Original Value Internal Value

No 0
Yes
◄ I
I
I ...
~

~mmary
I
Advanced ~__Settln~ I ►
Annotations
--
~

- -
- -

l OK 11 Cancel
I [ ~ply] [ Reset
l
Ille a cl{• m111P1 lad(• rlato s ?,•>~

, -

C~sification Table(a,b)
Predicted
churn
ObsPrved Pertentage Correct
·-
No Yes
•- - -
No l 726 1 0 100,0
' churn -

Step 0 Yes , 274 01 ,0


I Overall
Pertentage 72,6 i
I
·-·- ,_ -- - ·-
I

. Constant is included in the model.


-
b The cut value is ,500 !

rn. Fin Imnte, se genera una matriz de correlaci6n con cada una de las variables en cada
uno d los pasos, tal coma se muestra en la figura siguiente.

I [It• O!l•n•••I~
IV

,__ ,- -
Ih. Vanab!0:1) cntercd on step 8 lrunc
Comilatlon Matrix

Con.ttanl t.enuro Conruml wnuro equlp(l) Constant t.enure eq~(l) lnt.ernet(l) callcard (l) volce(l) eq,Joy card:mon w..:

Cn1 l8Jll 1,000 -,824


s 1-
._ UIRUNI ·,824 1,000
Ontlllnl 1,000 -,734 -,513

IStep 2 umura -,734 1,000 ,051


----
llfjlllp{l) -,513 ,051 1,000
-

1,000 -,714 -,240 -,313


Constant
-
-,714 1,000 ,019 ,050
l8tuUB I
IStep 3 ,019 1.000 ,5'13
equlp(l)
-,240
I
--
-,313 ,050 ,5'13 1,000
lntamet(l) I
' ,531
-.m -.117 ,106
~--
CoMant

tantll"II
!

I
I

I
-
1,000

.m 1,000 ,023 ,013 ,346


,016
-,217 ,013 1,000 -,5◄ 1
Slap ◄ equlp(l) I

""'=-- • - 1·1 -....an.'i


.. '24J; n:l"
,n -'- nno.
Oat.a mining - Mlnt>ria de datos

6.18 Cason. u 18: Prcdicdon sccu ·ndal


f n este caso se va a abordar un problPma de> prE d1cu6n ·,, cur-r c.i, I. I r1' I ,., ' 1- 1,
practica diec,nueve predicc16n sec.ucncidl\carndrd1 ri hdy 747 J d, ·, J, ' ,]', ·,,,,,,,
una camara refrigeradora. Los atnbutos son· I Irnc>, Pvwr r, 1, rnpor, 1·Jr<·, fi,, ·,-, ,r,, ,f, , •·,
Status y Outcome. Todos estos r(.)prrsentan r>I tH rnpo, Id putr>ri< Id q1J< r<: ~JI<,, I, '~·-,, ,.,
la temperatura, la pres16n, un valor interno dr> funciondrntr:ntrJ, <>I ,.•,L,<J,, / 1 ,,,, ,,,

tratamiento. La camara soporta cuatro tipos de trdtam,..,nto (0, 1(J1, J<JJ, -~,/~ ! 1 '/:,

Se pretende predec1r la potenc1a segun el tiernpo y Pl rr,r,to <Jr I,,·, 1:,ri:,r;I, ·, h ,,, , ,,,
se sugiere utilizar regresi6n. En funci6n de C1sto, s van a rr-::,l11;u l<r, A~ w r '', ,,,', ,,

1. Como primer paso, conecte el nodo var. ~ilr> con IO'j d..Jt<J', qw.: ',<• ' ' 1• ,

la carpeta llamada practica_dieciocho_predicc,6n r,ecuPrtCldl, rJ''' ,,, ,.r_,


recurses en linea de este Ii bro. Para dar cucnta de la (') 1oluci6r <J,, ,, 'Jf1 , rt,
largo del tiempo mediante un grafico, af\ada un nodo ,ar. rile dr• la c;;t,-.r
ponga los valores que se muestran en la Figura siguientc.

camaraln

® : Refresh

E·\DAZA_LIBRO_MINERIAOEDATQ8\hbrr,1.prc1c1Jca_d1ri,.lr11Jev

"p <.ltf ritJrnb r •JI fl frJ


Sklp header characters
......____o..J..: OL 1.c,n1rner,t r.har.i~t r·
Strip lead and trail spaces • None Len Rl~ht BOU,

Invalid characters
• Dis< ard Replac I! witt,
Encoding
[ Stream derau11 .. Delima, SVrnbol
Dellmllers
Unee ltJ ~l an for tfPll
()urJte
r.,, Newline Other
lri111 quot
I J Non printing charatter I rrJ
IJCIUbl
.AJlow multiple blank doltrr11t1ir

Type Ar,riot 11,111


/
Capitulo 6: Aplicaciones con d1ferentes
. te.cnicas de mineria de datos 25S

. Si desea ver
• , los datos, agregue un no d o Table co , IO
2 continuac1on, haga doble clic en el . ' necte con el nodo var File y, a
pnmero. ·

flJ Table [I fields, 2422 recordi)


~Eile _Edit t) Qenerate

T le
1
;
-=r
n--7nme Power Temperature

__l
· 10 1059
1059
259
259
Uptime Status Outcome
404
404
0
0
0
0
4 2 1059 259 404 0 0
3 1059 259 0 404 0 0
5 4 1059 259 0 404 0 0
6 5 1059 259 0 404 0 0
6 1059 259 0 404 0 0
7
7 1059 259 0 404 0 0
8
0 404 0 0
9 -~ 8 1059 259
0 404 0 0
10 9 1059 259
0 404 0 0
11 10 1059 259
0 404 0 0
12 11 1059 259
0 404 0 0
13 12 1059 259
0 404 0 0

~
13 1059 259
0 404 0 0
14 1059 259 0
0 404 0
15 1059 259 0
0 404 0
16 1059 259

~
0 404 0 0
17 1059 259 0
0 404 0
18 1059 259
0 404 0
19 1059 259

® 20
Table
j
Annotations

----

- Agregue un nodo Type, conectelo con el nodo var. File y coloque los valores como se
3
muestra la figura siguiente, en la cual se observa que el parametro potencia ha sido
considerado como valor de salida y los otros parametros coma valores de entrada.


Type
~--
® ( ►Read Values I~ 1ear V1lue I Clear All Values
~-j ll119tlnQ Chacl- Dlf ctan
V.ilues ",.In
Type_ None
-,o.2oeI
T e Time
7 Range 1640, 11821
None
~In
Out
~ Range None
◊ Power 1242,3291 ~In
~ Range None
◊ Temperature 10.11 ~In
~ Range None
◊ Pressure 1104,4491 ",. In
◊ UpUme
J> Range 10,3031
None
~In
◊Status
J> Range [0,303I
None
~ Range
◊Outcome

-
~ View current ne1ds
----
--, , View unused Oeld settings

Types I Format I AnnotaUons

[o.Q(~_
f di Ill llitl

II 111' i11t1f I 1111 llllt'Vll 1111111>, t",LI Vt'/,


ti, f 1'1' 11 " .. lllll , t•I I 11,il ,{' lllll<d I\
111 11 1!11 11·
I 1 11 •111 1.1 M ,d •l111n I 11t'i:o, , 011t\c 11 lu
tlll I I 11111h1 lyp,•

®
I__

...
rvpu

'1 H1•,ill111•1111d11l>h 1111 yll11•1:11p11 11 ,lt111,•lx1•cL1lt•pr1ri1qu ',('B n r un nodo dicirnt1nte


ll.i111,11l1 1 1111 1°1 lh 11 ,ptll",, 11>11t•t t1• t",lc• 1H do dl,1111c1ntr con I nodo Type y, acto
.1•1:111d11, l tlll 1111 ll(l(lll J\11,lly•.i ,.

l'tJWt r
I Bl
IA11 Iv 1
1••

l'tJWt I

t. l',11,1 .111,dl ·.11 111, IH 1( 11 111 ,,, lo•, 1,••,ttll,Hlc ,, 1>bt1 nld l \ li.ig.i cl bl < Ii , ciit1 m, nt Power.
11
I >1• , ..... 1111,d11, p11d1,, i>ll•,1•1v.11 q1111 l.i vi1rl, lilt• l1h1i, i11111 1t 11"'tt '
, , li1t nm r tu1Jy,en
.i•i:11111 I111111•,11, l.t Vdl li1l>l1 llptl111t• ,
1
~

I I It 11 I ''"' hi I W ~ 1

11,,11111

111111,1111

II 111 I
Ill I I l
I Ill

Ii II I I
II I II , l 11 , I I

1,'.:.,=~!!!!!!iio~""""'--~......!!lilliloi--:-..,._l\._l_-.,~lt: 1
~
6
/
on <ltlrrentes t t nic,1s de mineria de dato 257

umm ry Y v r un v ntana como la de la figura siguiente en


I rn d lo bt nido en base a las seis variables restantes . Al
1q.>l l An lysi yen la carpeta Fields podra advertir cuales han
d ntr d yd salida.

oil p II xp nd All

Temperature* 3,405 +
Pressure * -3.393 +
Uptime ... -0,1766 +
Status -0,1258 +
Outcome ... 0,03005 +
259,4
ID Analysis of camara1 n (26-mar-201518:43:46)
ID Analysis of camara1n(26-mar-201521 :00:30)
El Fields
8 Target
, Power
f=J Inputs
,Time
, Temperature
, Pressure
, Uptime
, Status
, Outcome
8 ~ Build Settings
Use partitioned data: false
Calculate variable importance: true
Method: Enter
Include constant in equation: true
Use weight: false
Mode: Simple
n un.i m) V] v ,ntana podra d istingu,r el modeio
8 l n, Adv n<l'd y c

n I ldbli'.1 con r
· to , 1o bJe t1vo PowN y la seis variables de entrada.
p('c

II t:) llntr t

Drp!:TldMll V 11 ble Powrr

b Pr roirto11 (C'on I.int). Outcomf, Pr sw e. St.r,lu , UpUrne, Ternperature,


Tunr
Coefilden (o)
U11<1tnndnnlbcd Standru"dhcd Co mdenls
Coefflclonts t SJa.
Moool B Std. Error Beta

(Constant) 259,382 20,169 12,860 ,000

Tune -1,624 ,038 -,841 -42,621 ,ODO


Tomporaturo 3,405 ,079 ,751 43,035 ,000
1 Pressw,i ·3,393 12,328 -,004 -,275 ,783
Uptime -,177 ,013 -,203 -13,285 ,000
Status ·,t:16 ,067 -,026 -1,867 ,062
Outcome ,030 ,018 ,030 1,629 ,103
a Dependent Variable. Power

9. El modelo anterior ha sido generado tomando en cuenta todo ti po de tratamiento de


la camara (0, 101, 202, 303 Y 404). En adelante, solo considere el tipo de tratamiento
1 para elaborar el nuevo modelo. Para ello, agregue un nodo Select de la categoria
Record Ops y conectelo con el nodo var. File camaraln. Despues, haga doble clic al
nodo Select e ingrese las va lores coma se muestra en la figura siguiente.

Mode

® ---+ ~
(o Include ( Discard

Outcome= 101

camara 1n Itrat -, _lo_ ~ Condition-

Selllngs 1 Annotations

~ Cancel
&Jply J[ Besii]
P• 1 6
c me ac;, d m1 wna de cldt 259

n Field Ops y, luego de conectarlo con el nodo


P rd mgr ~ r las valores coma se muestra en la figura
11 1
t nt lo P rarnetros de entrada como de salida no han sido
tom n cuenta el tratamiento numero 101.

(;he
- - - t... - ... ,R no•
~ R,ngv
None
; Range None
; Range None
,Rang None
, R1no1 None
; Range None

Id ow unu,ea fttld s ngs


on1

~1. .\ re ue un nodo Regression que se encuentra en la categorfa Modeling y conectelo


on el nodo Type. Despues, haga doble clic en el nodo Regression y presione el bot6n
E ecute. Esto va a generar un nodo diamante con el nombre de «power 101». A
ontinuacion, conecte este nodo con el nodo Type.

..' .............-----·····.''
.''' ..
.' ''

.!POWer 101 Ii

®----..
Type

~.
power 101
n el diamante power 101 para ver la informacion de mace o a e
ra a re iar, entonces, que en est e nuevo modelo la variable , as
m \en el ca o anterior esa vari able era la temperatura).

- f.

Variable Importance
Taroets : Po er

Te

0,1 o,.. 0 ,3 0 .4 ,s

. Final I pe ana Summary. En la carpeta Analysis p ra se ar e


m ientra ue en ta car e a Fields pod ra a \ ertir lo ara e
en ra a e ali a ue se han u a
/
dato!. 261

f jt r, ic ,o propuc'1l o

con r•I conoc.1m1 1


nto .idqutrido, ,,,, Ir· proponr-, re-al1Lar nue 10~ modelos con cada uno de ;o~
dif rr>ntcs tratc.1rn 11 nto'.. d,1do!.. cJ lac arnara Dr•!.pues, aplicar el rnod lo de rede~ neuronafe:; f
h e,er la5 c.omp.:HcH 1nr1r••, con r sp cto a lo~ rnodelos de r~gres16n I otros _ _ _ _ _ _)

. Cason." 19:
619
Exportaci6n de modelo y re ultados
En este pequeno caso se va a expl1car c6mo exportar los modelos I los resultados a
d,versos formatos (texto en archivo piano, HTML, Excel, informe, base de datos, etc J. E
punto de partida va a ser el ejemplo del archivo que se encuentra ub,cado en la carpeta
practica_diecinueve_exportaci6n_de_modelos, perteneciente a la plataforma de
recurses en linea de este Ii bro. Para abrirlo, hay que hacer doble clic en integracion_de_
farmacos_l1bro_exportaci6n_modelos. Una vez hecho esto, se obser,ara una 1enta a
en la cual se podra visualizar la exportaci6n de los diferentes archivos.

drug_i:.ra d

drug_(.rt
drug_r.5 IJ

Ta le

-
/~r
c~

00
o ut_d g_ -t_
+
Report I~I
pred1ccron EYL I

F,P.ura 617
, · r tpv ;_ic. 6r, de 10:; arch110:;
In •r d, 11 lo

I ~11 111,, I 111ift11111.11 ltlll" li1vn dt• Mir ru•,uft Excr·I. Parc1 Pllo, concctc el nodo
1111 .ire
li.111111111• t>,u~: 11111tidt1 L u 1 l qu<· 1,1 1 1111111·11l1c1 P11 lc1 cc1tr•gorfd xport. IJPspu e:::, haga
\ 111 'fl t•I fllldll I)(( 1·1 y ('fl l.i Vt•fllcllld l'IIH'ln(•fll0 (• 1,p0c1fiquc la ruta COIi la que Sf:!
f.1111d 11,11•1 .ill ll1v) .1 ~•1•11t•1,11 . I 111 11 .tr 1 ,1•,01 pLwdP pon<'r, r>0r cjr.m1plo, drug.xi•,. Lucgo,
p11• ,11,111• 11 1 hPll)11 I 1•c ut<• y di, il.t',, ,1 lc1 c,11 pc•lr1 Pr, donde r.;~ 0ncucntrn cl archivo
i: •11 •t ,HIP ll,1111iHh1 d, 111~.xl•,,

I el

t 1111 II IHII 1, \[) 1111111) MINI I tAr.11 [lA[l.)fl\JltJrolpl ltllc Ercol

"J lnflUCII n,1d n me


Ile u11 h r u 1110ml
I 1 11 r II n 1rn11or1 nod• ror 1111, data

1-'ubll h /\rlnotaUon

1nt1I J

~'- ~\11 .i 1110 tr ,u 111 inlo, llldcl6n •n un ,m:.llivo html, con etc cl nodo dramante Drug con
un n d) 1r1 bl1 1 • I u •go, hdf-.d dobl cllr 11 0 ,IC' nodo labl , C'spccifiquc en Filename la
, ut 1 1110 lr dd 1 ' II la fiRU t J y c•c;cojr1 rn I llr type cl c1rc.hivo html. Ocspues, presion e el
bot ) fl f x . lilt p.ir ,1 podc:r g •rwr , I Jrchivo drug html.

- 1, bh

r1bl1

l•' Auto < u1tom

1 outputto acre n ~•1 Output lo ni

flt n mt
html htm Ii-]
FIi tvpe Ihtml doc um nt r html)
1.,1 P Qin te output Lin p rp u ,1{J01:
I , ,, ,,. l I

t ltln\)1 I Form I I c,utput t A11rrot !Ion,

OK [ ► li.dct.ilt [ nc11 J 1 ~P'V I r t •, J


I lll hf,

,, s, desea exportar la 1nforma I n :1t


i :, rnor '1ft., dt l , I L
Access. SQL Server, Oracle Into, m, 081 p l.l ' 1 l I cl.iLn•, 1• t1• 11 1q•,, ni,ic,
'
este caso, s1 se t rata por ejempl de Lin .
, ,)r,1do ' LtL , d,h t l ·, 1 'K1111 lllf(1•, ,i1·,,, .. ,,
• ll 1)IV dt' /\ ' II 111
I .
1 1 j
coma primer paso ub1quelo n lc1 c. LL Yi • · uu •·><11n11.11 dt 11 1: rndl>,
•• d rp ti LIL t1n il1v • 1,1, 1 )\
exportac,on_ e_modelos (tome como r ' t 111, , I tr .i , 11, 1111, "V'
1l I n I id II 1 lll ,1 '1lglllt•11lt')

lmagenes • T,
,/i M<H1u d.1101.f"<l)ortor

■ Videos pr1ct1e1_onct_d.110,_1,,. o_lfrug A ,

Equ,po
Disco loc1l (C:)
1,.,,1 dat1 (0:)
._. d.lu_ong,n.,J (E:)

• Ocultlr c1rpttM

4. A continuaci6n, cree un DNS para el archivo export r drug Pare ,11 , v.iyr1 pr11rn•ro
al bot6n lnicio, despues haga clic en el Panel de contro l, scoJ.i l.i', lwrr.1m1<'rit,1~
administrativas y luego seleccione y haga doble cite n OOAL

Administrador de origenes de detos ODBC

DSN de usuano

Cxigenes de datos de usuario

Nombre Controlador
M crosoft Access dBAS • Onv
Excel Ries Microsoft Excel D1ver (" xi . • .xi . • id
exportar Dnver do Microsoft Acc. (" mdb)
MS Access Database Microsoft Acces Drtv r (" rndb. •


"'
Un Origen de datos de usul!rio ODBC Im cen norm 6n d tori z ,1
al proveedor de datos lndtC!ldo Un 01 gen do d 01 d ti,u1n 1610
vidlle y lidil19ble en el equipo actulll por el usu rio Ir ,di do

J
264 Data mlntns - Mtneria de datos
/

5. Cliquee en el bot6n Agregar y escoja Driver de Microsoft Access. Despues, haga clic
en el bot6n Finalizar.

Crear nueovo origen de datos

Se1ecoo, ie Lil cortroladof para el que desee establecer u,


origel'ldedaos.

Norrbre \~
Driver da Microsoft p<R arcµvos texto C-.btt: ·.csv) {1 =
r
Driver do Microsoft Access met>) f
Driver do Microsoft dBase (".cl:,f} E
Cmer do ~ Ex.eel(".xis) E
£mer do Microsoft Paradax (".d> ) f
..
.
Driverpaa o Miaosoft 'vffllal FaxPro
~ Arv-,., rf RA~ J:= n,;.,..,. r- .+I • nm • mrf.rl 1
"' ~

6. Tras ello, aparecera una ventana en donde debera ingresar la ruta donde se encuentra
el archivo, asi coma el nombre del DNS. En este caso, ponga el nombre exportar_drug.
Para finalizar, haga un die en el bot6n Aceptar.

De-x,iocin·
8.-ededatos
Base de ciaos E:\ eJ)Clltar_cwg .nd,

; s-x.o• l I "-' !I,,.---Rlpa.--~l (~

' ()pocnes>>
/

apitulo 6: pli< aclon on difPrentes tecnicas de minerla de datos 265

En la figura siguiente es posible ver que se ha generado el DNS exportar_drug.

DSN de · ema OSN de art:hivo

Origenes de datos de UIUl!rlO:

Nonm Corbt>lador
dBASE Fies Mlcroaoft Access dBASE Driver ("<Ii. •.ndx
Excel Files MlcrolOft Excel Dnver(".xls. ·.x1s,c. •.xbm. •.x
~ Driver do Microsoft Access (" met>)
Oriv r do Microsoft Access (".mdb)
I Comgu-a-
MS~ Database Microsoft Access Driver (" mdb. • ilCCdb)

l'I l
' I

U, Ongen de datos de usuano ODBC almacena informaci6n de conexion


al proveedor de dates rocade U, Origen de dates de usuano solo es
visible y ltilizable en el e<Jipo actual por el usuario indicado

car

7. Afiada ahora un nodo SQL (database) de la categorfa Export y conectelo con el nodo
diamante llamado Drug. Despues, haga doble die en el nodo Database y coloque los
valores mostrados en la figura siguiente. En la opci6n Data source escoja exporta r_drug y
en Table name ponga el nom bre de la tabla . Posteriormente, pulse Export y p resione
el bot6n Execute.

,..., prediccion

~ c __
00

r,
exportar_drug
c~ .... 1
Data source: [ exportar_drug

Table name:

<"!, Create table


1
L-j;=x:
po~rt_a
-=
, :::::::::====~==IL
J Insert Into table
r·-[·--m---·-: ~ Drop existing table :J I I I r 1 ,
i l
II L !i Default string size: 255 f±j I Schema [ ind~. G
[P.red1cclon!
·------... Quote table and column names: \!) As needed 0 Always O Never
D Generate an import node for this data

Export_,_Publish l~otat-;;ns J
OK ► Execute j[ Cancel
iii
Data mfntns - ineria de datos

8. Exporte el modelo un formate xm l. Para ello, haga doble d ie al nooo a a e - =


a lap rte up nor en el menu File y elija la opci6n PM ML.

tjllOtr FOOllr
Plllt nip rugY
Prtnt Prt'lltJJ Variable Importance
ennl T~,om On.IQ

0,0 0,1 0 2 OJ C OS

Summary S ngs

9. Ponga, luego, el nombre Drug a la hora de guard ar el archivo con el forria o x~ '. ~ ~a
vez hecho esto, puede ir al directorio en donde se encuentra el arch ·o ge1e--a:; .
Haga doble clic en el y asf podra visual izar la inform aci6n, tal coma se mues:ra e-, la
figura siguiente.

<7xml version=·1.o· ~ odlng="UTF-8"?>


• <PMML verslon="3.1 " xmlno:xsl='http:/ / - w.w3.org/2001/XMlScM -lnstMKe" ~ :/ , ___ ..,...,,_....,., -l_ t "'
• <Huder copyright="COpyrfght (c) Integn,I SOlutlons Ltd., 1994 • 2007. All right s ~•>
<Application verslon= "ll.0" nama="Clementlne"/>
- <Annot:.ibon>
<ElCUMion name="Annotatlon" 113lue="Exported wlltl PMML extensio ns for use with S P S S -•
</Annotation>
</Huder>
<Dat:.iDlctlonary numberOfF1elds="!5">
• <DataFleld nam •="NA_IC" optype=•contlnuous• d.ltllType= "double">
<Ext ension nam•=•storageType" valu1=·numerlc" -ende="spss'/ >
</D•taReld>
• <DataFleld nam e="BP' optype=•categorlcal" dat:.iType="strlng·>
<Extension n~me=•storngeType• valuez;•strtng• axtender-•sp.5s•J>
<Value value="HIGH' property="valld"/>
<Value value•"lOW" property~•valld"/>
<Value value="NORNAl' propertys"valld"/>
</DataFleld>
<DataFleld name="Age" optype=•contlnuous• dataType='lnteger">
<Extension name=•ston,geType" value="nwnerlc' -•nder-="spss"/>
</OataFleld>
• <DataF1eld name="Cholesten>I" optype='categoric■r ~taType='string'>
<Exl enslon name=•stonige,Type' value='strlng" extende~· spss• 1~
<Vaiiue 113lue="HIGH" propetty='valld"/>
< Value valu•"''NORMAL" property="velld'/>
</DaitaFleld >
• <DataFlald name=•orug• optype= "categorical" dataType= ' strlng">
<B<tenslon name=•storegeType' va,lue= · stnng• ntender="spss"/>
<Value value="drugA" property= "valld"/>
<Value value='drugB" property="v•lld"/ >
<Value valu•="drugC' pn,perty=•valld'/>
<Value value="drugX" property="v•lld"/>
<Value value="drugY" property= ' valld"/ >
apttulo 6: plicaclm1P c --- /
on dlferentes t~cnlcas de mlnerla de datos

10
LJ c; cl n do qu va a brindar informac·,o· n espec1fica, . Se aco · t · ·
p1ev10 cH red d los comandos CLEM C . · nseJa ener conoc1m1ento
0 0
c,f' r ncu ntrt1 l n lc1 categorfa Output Y·c ~ ~rimer paso, af\ada el nodo Report que
dobl LIie nest mlsmo nodo e . onect~ a.con el nodo diamante. Despues, haga
ingrese el s1gu1ente c6digo:

1111 informe final de los dates .................................................................................:


..... ' • , . 11 . . . . . . . . . . • . . . . . . . . . . . . . . . . . 1 •••••••••• . . , , . . . . . . . . . . . . . . . .

M dicamPnto_Real, presion, Valor Predich0 , N1vel_de_confianza


Encabezado . // I;
#WHERE (Drug == 'drugY') and ('Dru, __ '$ , ..
[Drug], [BP], [ '$C-Dru , ] , g ~- C-Drug ) // Cond1c1on
g , [$CC-Drug]// Campos a mostrar #
..... ,. . . .......
' ..................... . .. . ····· ............ ............... ······ .....................·
'"""" ,

- --

__ "·~

ju intoa ~ tinlll de 1 011 dot-011


..... c~
Med.lc9ento_Reol, pre,i on,Vol or Predicho,Nive l de contianro Drug
f \llllRt (Drug •• 'drugY') and( 'Drug' •• '$C-Druq')-
[Drug], [DP], [ '$C- Druo ' J, [ '$CC-Dr ug' l
I

l tilflJ1i.t l8

GK r► C,etul

6·20 Cason. 20: Series de ticmpo (pronosticar)


0

El Planteamiento del caso es el siguiente: un analista de c,erto proveedor nacional de


baridd ancha requiere generar pred1cc1ones de las suscripc,ones de los usuarios de la
r•rnprPsd y pod er asf anticipar la pos1ble utilizaci6n de ancho de banda Las predicc1ones
<ir deben hacer para cada uno de los mercados locales que conforman la base nacional
dr dhon;:1do . Par otro Iado, se va a utilizar el modelado de series temporales para generar
IHPrJ icc-iones en fun c,6n de los pr6ximos tres meses y una serie de mercados locales.

En este caso se mues ra c6mo se p e ECO e


I
forma o co recto, para la entrada al odo Se e em
1 Cr e n nue o stream llamado ,.
el desar ollo de los eJe, plos (e es:e caso, de e ac c· .. a c ... a .. ~e·a
- ..~::- -;_.e ...'=_
prono car . Oespues ae es·o, ag eg ... e --oco ce a ca:ego-· 2 ...
S0 S5 c2: -'=;;:-
h g oble cl1c ub1q eel a c i :o e do ce see ... Je :,.a... ""'::: ..~ '==
l1bro prac1.·ca_veinte_pronos ·car broadband_l.sa •

2. ;,,;;aca ur "oao Tab e aue se enc en .. ra e 'a ca~ego .. a Fie d Oos . .....eg~ ::-e::e:
co'"' e '"'ooo SPSS. A cornnuac'6.,, naga aoo e c c e.., es:e -.oco. i:s:2 ac.:·::;.., :e ..-- -=-=
os:rar os ..esu.taoos. ::n a fig ra s·gu·ente se 'eoroo ce es·a · :o .. ......,2c·c-. ~- e 2 ~e
o □ se'"'.a" oa .. os 'T'e'lsua es de suscr·oc ones ae 85 ~e ..caco oca es 2s cc----.., e :2:2
e mes. e aria , a "ecra. ?ara e prese e caso so o se ara .... so ce 6 ,,....e ..ca:; : :.:2 e3
/
Capttu
6
'°-
___ ~: _A_p~
ll_a~c_to_nes con dlferentes tkntcas de mtnerfa de datos 269

3 oebido a qu la cant1dad de mere d ~


• . a os a usar es pequena, agregue un nodo Filter de
la categoria F, _Id Ops Y conec~elo con el nodo SPSS llamado broadband_l.sav. Luego,
ha c dobl clic en el nodo Filter Y elimine todos los campos Market 1 Market 2
Mc rk l_ ~. Market_4, Market_S, Market_6, Total y DATE_. - ' - '

... filter
I

@J~

~ V·

/
Fields 89 In, 81 ftltered, D renamed. 8 out
·- ----- -
Field Filter Field
"'" Market_74
Morket_75
)(---.. ...
~
Market_76

@ .. @ MarkeL77
Market_78
Market_79
~
-~

~
broadband_l UV ~
Filter Market_80 ~
Market_81 ~
Market_82 ~
Market_83 ~

-
Market_84 ~
Market_85 ~

Fitter Annotauons
-
~
~
DATE_

I
CEJ Cancel AIJply !L_ Beset J

4. Agregue un nodo Time Plot de la categorfa Graphs y conectelo con el nodo Filter.
Despues, haga doble die al nodo Time Plot y coloque los valores como se muestra en la
figura. En Series agregue el cam po Total y desactive el check Display series in separate
panels y el casillero Normalize. Posteriormente, haga clic en el bot6n Execute .

...,. [Total]

[i]
/Table
Plot • Selected sanes J Selected Time Senes mMels

@ - - - - -...► @ Sanos.

I
broadband_1.sav )( axis label v Default ' Custom ..n
T ( -,Display serlei. on separate panels Gcl Normall?e

Display: 0 une I
~I □ Point
□ smoother
1 [Total_)_
0 umtt records Maximum number of records 10 plot I 2000 ~;

Plot
- Appearance
~
Output Annot;itJons

Ir oKiI -~ 5recuie_J [ Cancel J


n I •rilhr 1 dt> lc1 fi8lll,l 1guIt'.'nte '>t' muPstr.11111.1 tl ndt mI.1 ,1•,c1•11d1•11t1 · r,11 1y •,11.iw
Y in ind1Ltos d' v,Hl,lllOnL~ estJ 1on.1les, Pucci' h,1lwr writ·, 111tl1 v1d11,tlt1•, 111 11
:-t.1 i n.1l1d,1d, µt.:'ro parer qm la L tc1c1onc1l1d,1d no l'!l un,1 ,11,H lt•tf-.t,c.i dt",LH.id.i
dt I , ci;-itos en g ne, al.

l ut,11
lut.1I

• 000 ,000

1u,oo.ooo
I-

1 .000 .000

500 .00
0 10 :o 30 40 50
Record nu mber
r11ph Annotabon■

5. lnspeccione los datos par separado, es decir, en cada uno ci los m "'re.ado 101 al1 :,
Para ello, agregue otro nodo Time Plot y con ct lo con el nocio Filter. rk~splll's, h,1g.1
doble clic en el nodo Time Plot y coloque los val ores qu sc mu st1 an l n 1.1 11i1u1 .1
siguiente. Posteriormente, presione el bot6n Execute.

Plot • ~elected serteij Selected Time Series mod 1

sertes

...
x axis label. • Oefllurt ustom

Display sertes In separate panels Norm111


Olsplay: I?.) Una
0 Point
Smoother
., umn record• Maximum number of r1cord1 to plot
1ooof:
/
d min rf , d (I I ',I /I

• ooo

4 00

0 000

30 40 50 60
0 10 20
A cord number

mb, ahora el tipo de dato string por el tipo de data date del campo DATE_. Para
llo, a regue un nodo Filler y enlacelo con el nodo Filter. Despues, haga doble clic en
I nodo Filler y coloque los valores como se muestra la figura siguiente.

Fill r

.
@

Fiil lnfleld. ~ ~ ~ - ~ ~ - - ~ - - - - - - - -· -
DATE

@. l ► Replace

FIiier

l '"''""'J
Raplac wtlh

Srttlng·. 1 Mnotdllon~ ]
W[ e, ncel

Note en csta ngura que se va a reemplazar la opci6n Always de todos los valores del
Crlnipo date_ de tipo cadena al campo date_ de tipo date.
. Ant 'S d ontinu r con Id sarrollo de est e caso, cambie el valor de fecha por def
con I qu u, . , li
nt I oftwnrc. Par a ello, vaya a Ia opc1on ecto
oo 1, 1uego escoja Strearn
prop rtit' y puL la p st na Options. Despues, ponga los valores que se muestran en
Id ti UI d I ,Ui 'Il l .

pmnostur_li'bro

C11cul1tton1 In • Radian, 01grees

Import dltllllme 11· • Dltlmma String

oatarormet MONYYYY ..
merormet HH·MM.SS .. O Rollover days/mlns
Number display ftlrm1t Standard (I# #1) •
Standard d1clm11plac, a: 3~..
Sclenllftc declm11place
• 3-; Currency declmal pl aces. ~:
Declmal symbol: Period U • Jorouplng symbol
~3
Date baseline (1st Jen) 1900 !~ 2-dlgH dates start fl'om I 1930 f:,
Encoding: ISystem default • J
~ Maximum set slZe ~ :1
~ Limit set size for Neural, Kohonen and K-Meens modeling ~J
lvoung • ]
Refl'esh source nodes on execution
Display fleld and value labels In output
Save As Default

8. Agregue ahora un nodo Type y conectelo con el nodo Filler. Despues, haga doble clic
en el nodo Type y coloque los valores que se muestran en la figura siguiente. Note que
todos los ca mpos son asignados coma sal ida, excepto el campo DATE_ que ha sido
asignado como none {ni salida ni entrada).

Type

®
"• --~ r► Raa_'.l_ Values JClear ValU83 rCIOQI All ValUBf I
Field
~arket_1
__J Range
8 - L Values
13750,117311
__J - ~ Oul
r
Ml6Slngf. Chock Dlrect,on

arke\._2 , Range 111 ◄89 5370◄1 None Out

®• -
Type
Market_J
MarkeL◄
Market_5
Market 6
Total -
DATE
, Range
~ Range
, Range
, R

~
ange
Range
(11659°607551
'
14571 ,17977]
(2205,66111
15488,22789]
153641 3,2406762]
None
None
None
None
None
9 ot
Out
u
Out
out
Out
- , Range (1999-01-01 ,2003- 12-01) None (S) None
--
(. , View current flalds r J View unused fleld settlngs
Types Format Annotations
GJ[ c;c;-J
oee~ ir amt
/
Capitulo 6: Aplkaciones con ct· . .
iferentes tecrncas de mineria de datos 273

regue un nodo Time Intervals de I t , .


9. Ag . a ca egona Field Ops y conectelo con el nodo
Type Luego, haga doble clic en el nod T'
· . . . o 1me Intervals y coloque los valores que se
,....,uestran en la figura s1gu1ente Defin I ·
"' . · a os intervalos en meses, establezca que los
valores sean tomados del arch1vo y elija el campo DATE_.

,.. Timi! ln~nral~

®'
..,
+ PerlodlCily 12

Time Interval. Monlhs

Start labeling from first record •J Build from data

® •

Field r, DATE_ ....0]
Tr+ New Oeld name extension ~[$_
TI__ _ _ _ _ _ _ __JIAdd as • Prefix Suffh<

®-i
lme Intervals'

Intervals Build Estimation Forecast AnnolaUons

j~[can~' Reset

10. Ubfquese en la pestaF\a Forecast (predicci6n). Luego, active la opci6n Extend records
into the future y ponga el valor de 3 para predecir los tres meses siguientes .

.,,,. Time Intervals

@ Pe-;;-odlcity: 12

@ Extend records Int.o the future :=I ="---'3l,._:...;:~-----,


Future Indicator field $_Tl.=F_u_tu_re_ _ _~-~
i..::I

Future Values to use In Forecasting


Select fields whose values you wish to add to the data
Field I _ Values

Intervals Build Estimation Forecast Annotations

OK [ Canr.el
I

11 cl ling, • 1, c.c,on I nodo Tim Seri s / conectelo con el


ntinu,1r16n, hr:1g, rloblP cite en el nodo Ttmf. Ser=es. En la
lu· v, lor · por dr fr no I definr.1 el m?todo coma Expert
ut tl1r , I rn,·., oclo mas adr>cucJdo para cad a una de jas seri~c,
, 1011 ,,1 bot on Xt!CUte.

rt di 1ly 12

M In in 10

Cnten"

M 1rnurn numri r of l:ii,r in ACF and PACF ou put

OK

12 Agregu~ ahora el diamante que se ha generado con el nombre 7 fields y conectelo


con el nodo Time Intervals. Afiada tarnbien un nodo Table y conectelo con el nodo
d1amante r>egun como :,e rnuestra en la figura siguiente.

~
~ ► ~
. .:_ I
T,rne lrMI\$ 7 fields

~ ◄
~
T.:.iole 7 fi':!ld~
pftulo 6: 1>hc ,u lo,w < <111
' 111 <'rl'lltl's tl>, 1111 ils cl<' mhwr ia cl<' d.ilo<; ?.7S

13 . Hc1gc1 dobl cli en el nodo r,1blc. L sto hara a par c


. . er una venlana como la de la figura
s1gu1P11t .. Note qu0 Pn elld hily lrl1s r . gislros nucvos (61 62 63) I d I
. , Y acop a os a os datos
011 ginc1lcs quP rPprescnt n a los pcriodo"..;) de encro, Febre ro y marzo d e . por otro 12014
lc1do, ol)';~rve que hdy nuevas colurnnas como $11 columns que ha sido anadida por
Pl nodo Time Intervals O $TS_ columns, insertada por el nodo Time Series.

l -i[lll' Ldll l;HII ratr• ,, l111i) r., (?)

.~
44

46
47
L'ij M,1r~ 9t Hf rot,•I
16634 1 7q17
16878 I 8249
1 71 71 18601
17438 18945
I$Tl Tlmolndo,j loTI_ IImel
44 aoo 2007
45 op ?007
46 oct 2002
47 nov 2002
ibr JI i 11 'foerl $Tl Monlhf Tl
·2002
2002
2002
7002

1o
11
8
9
Count
1•

48 1 7878 19343 48 die 2002 2002 12


49 18500 19752 49 one 2003 2003 1
18980 20148 50 feb 2003 2003 2
19323 20540 51 mar 2003 2003 3
19923 20922. 52 abr 2003 2003 4
53 20879 21300 53 may 2003 2003 5
54 21108 21669 54 Jun 2003 2003 6
55 21100 22004 55 Jul 2003 2003 7
56 21365 22398. 5& ago 2003 2003 8

au·
57 21366 22773. 57 sep 2003 2003 9
58 21851 23160 58 oct 2003 2003 1o
59 ~3 221 72 23616 59 nov 2003 2003 11
1 22789 24067 . 60 die 2003 2003 12
61 11$ $null$ $null$ n I ene 2004 2004 1
62 11$ $null$ $null$ a, feb 2004 2004 2
~ J11$ $null$ $null$ _ _ _ fl I mar 2004 2004 3
"Tr" ------
Table Annotations

Las columnas mas importantes para el funcionamiento de la prevIsIon son $TS-


Market_n, $TSLCI-Market_n y $TSUCI-Market_ n. En particular, estas columnas entre
las filas 61 a 63 contienen los datos de prevision de suscripcion de usuario y los
intervalos de confianza para cada uno de los mercados locales.
14. Si desea ver los modelos generados para cada uno de los mercados locales, haga doble
clic en el diamante 7 fields. Una vez realizado esto, aparecera una tabla con toda la
informacion requerida. De acuerdo con la figura siguiente, para los mercados locales
del 1 al 4 se ha generado el modelo Holts linear trendy para los mercados locales 5 y
6, el modelo Winters additive. Tambien se puede observar en la columna Predictors el
numero de columnas que se han usado coma predictoras para cada objetivo, el cual
es igual a cero. La columna StationaryR **2 muestra el valor R cuadrado estacionaria
Esta estadfstica proporciona una estimac,on de la proporc,on de la variac,on total en
la serie, que se explica por el modelo. Cuanto mayor sea el valor (hasta un maxima de
l,O), mejor sera el ajuste del modelo.
-
e.: ara ' er aa , ercac
eag se eri ~ e tos con
a ser recesa OS~

s
S;>
'.::1,93, 15,i"U 0 31-1
E!: 3,911 .,ss 0,3S:!
il,53 15 0 003
SU 35,9 16 0,931
- Ot9 S,53 15 0,003
= ===~•.- -- !9 S,53 15 0,003
=-~cE·r G i :1 11 S E 15 003 4
=c=c=,,- 26,15 16 0 036
=EC : E",.- 3 ,,14 16 0,688
::;: .:~•t- 35 9 t6
---,.._-,-, 0,931
-=- "--= ~ 05 ! 35,9 16 0,931

., : . _ c ce 2 - o a os a.os rea les con re spec o a los da os predichos vinculados al


=e .. :c- o :;cat : . ::>c ra ello, ag egee n nodo Time Plot y conectelo con el d1amante
, f e cs Jesoues, · aga coble clic en el nodo Time Plot y ponga los valores como
:e ..... 1.,ES-c e a .i·g ra u !)1cada al fin al de este parrafo. En ese caso, se han
:e ec::: o a~o los .a o .. es eales y los valores predichos del mercado local 1. Luego,
;;res G e el 00 0"' E•ec..ite.
/
< P hllo h. \pit, ,u lmw 011 llf
- ~ -'- ' c•n•nl<'~ I(•< 111( d'> d<' mitwr ia <IP d,1tos 277

IM lkt>I I U~ Marlr.-t l llSLCl•Monet 1 lrSUCI Marlor! 1)

r

f rt1 Id , l'lol ~ fi 18( 1 d ,,.. f:IBIIIC 1 d Tlmo Beriea rnodel

Ill rk 1 1
, STS-M rkol 1
8 ~111
1 ►

7 n Id l1r10,k t 1 n o M ukol
X vi I bAI Iner, ull Cu lom

C DI· Pl 1y erle In I par I p ,nel O Norm ltza

DI pl.y .,I Line


] Point
[ I Smoother

l.,,1Limit r cords MaJtfmum numb , of record rn plol 2000 :

Plot AppAar nc Outpul Annou11ons

Aparecera una ventana como la que se muestra en la figura ubicada al final de este
parrafo. De acuerdo con ella, o bserve que las suscripciones del mes de enero del 2014
van ser de 11563 y las de febrero del 2014, 11576. Estos valores antes menc,onados
son las pronosticos de la s suscripciones para el mercado local 1. tambien podemos
ver que las lfneas para datos rea les y previstos de toda la serie temporal estan muy
juntas en el grafico, lo qu e indica que este es un modelo flable para esta serie de
tlempo particular.

12.000

10 .000
..
II
~ e.oo
u
·~
:: 6 ,00
..
:,

4 ,000

2,000 L.,,___ _ _ _ _:___,..----r-----.---;-----'


1/1/99 111101 111.102 1 1 '03 1/1/04
1/ 1 /00
tJe m po

Or~ph
Annotallons
.'~El, a a ar coble die e el diamante 7 fields y agregue las campos coma se muestra
c € a g "a s1g iE e. o e que se ha agregado dos campos masque representan,
'€5 E .'c e e, e! .ialo .. infenor tel valor superior de confianza para el data pred1cho.

Selected Tune ertBs models

E s
; e _1

at ~e ~ panels ormahze

m er o<: rer.ord~ to p [ 20§_:

,, 7 - ,<::g:J ~ ~g; Ou e r.rC e el bm.6 Execute. De ese modo


,, .. ,J&:. •, r se mostrara una ven ana
J

, - c ~a o It Ea~ que ,enen a representar, por un lado los valor s


, po cl ot ..o, los 1alores de confianza mi· . '
ntmo V maxima.

1
1

1/1/: l l/1/ 2
I "1Pe 1) 1/(K
Capftulo 6: Aphcaciones
/
con d1ferent t
rs ecnlcac; de mineria <le clato~ 279

Resumen

1 Los rnodelos de minerfa de datos son r


romando en cuenta su utilidad y versatilida~p ,cadi°s a diferentes areas productivas.
casos que son desarrollados de m d' ,' e_n e presente capitulo se explican veinte
anera idactica Y sencilla 11 d .
los conocimientos necesarios para que e ector a qu1era
. I
, . que e ayuden a desarrollar aplicaciones de minerfa
de datos con d1ferentes tecnicas tales coma I , b I d d • . ,
. . . e ar o e ec1s1on, la red neuronal el
clustenng,
,
las

series de
. ,
tiempo, la ssociaci6n y depende nc,a,
· 1a va I'd . d d '
I ac1 6 n e atos
erroneos, 1a integrac1on y la particion de datos.

2. En_ ~I caso _nu~ero 1 ,esta relacionado al problema de cuando jugar al tenis. En el se


u~liz,a _la tecnica .del arbol de decisi6n para poder predecir si, de acuerdo al tiempo
cl1matico, es pos1ble o no practicar este deporte.
3 En el caso numero 2 se resuelve un problema que consiste en determinar el tipo de
planta (versico/or, virginica Y setosa), segun las medidas de la semilla. Para ello, se usa
la tecnica del arbol de decision.
4. En el caso numero 3 se hace un estudio para determinar que medicamento es el mas
adecuado para el tratamiento de alergias segun cada paciente. Para ello, se usan las
tecnicas del arbol de decision y de redes neuronales.
5. En el caso numero 4, a partir de un estudio de los empleados de la empresa de software
para internet Memolum Web, se hace la extracci6n de una tipologia de empleados
con el fin de promover una polftica de recursos humanos mejor f undamentada y
seleccionar a que grupos incentivar en especial. Pa ra la resoluci6n de este probl ema,
se usa la tecnica de cluster.
6. En el caso numero s se comparan los datos de algunos vestidos de una tie nda virtual
para poder determinar cuales son los que mas se han vendido Y det ermi nar la re lac1on
Que existen entre ellos. Para resolver este caso se usa la t ecnica de cluster.
7. En el caso numero 6 se desarrolla un ejemplo con la intenci6n de poder determinar
datos err6neos y faltantes. con ese fin, se hace uso de nodos graficos y de auditorfa,
ademas, se usa la tecnica del arbol de decision CRT.
8- En el caso numero se plantea una explicaci6n de c6mo se debe exportlir los datos
7
de un archivo de Access par medio del uso nodo ODBC. Por ot ro lrldo, par a resolver el
caso se utiliza la tecnica de regresi6n linea l.
9· En el caso numero se muestra un ej empl o de c6mo generJr la proyecti6n cie las
8
Ventas de I . per,·odo de cuatro semestres . Con csc fin, se usa la
t. as muJeres para un
ecnica de series de tiempo.
10 En el caso numero 9 se explica la relaci6n que existe entr~ la_re lac16n de depcncknr.1<
entre las variables MM IN (cantidad minima d e memoric.1 p11n~1pa l) Yel ERP (rend1n~1cnto
relativo e ti , . . I) Para ello se usa la tecn1ca de regres1011 l1m 1I.
1
1
s mado del articulo angina . ,
· En el cas , . , d tecta r una siluac16n defraud' rel,1 1on,1dc1 .i
numero 10 se expl1ca coma e
1as solicito d . -1 I
. d . rroll o agrfco la. Para csP fin, sP. t1! 11zd11 r1s
te . u es de subvenc1ones para e 1 esa
cn1cas d e cluster y de redes neurona Ies.
12. En I caso nurnero 11 se efectua la validaci6n del entrenam iento de un modelo
con r spect o los tratamientos de las alergias Y a traves del uso de nuevos datos
prov ni ntes d otros hospitales.
13. En I caso numero 12 se plantea un problema en el qu e se tiene que integrar la
inforrnaci6n de cuatro hospitales diferentes hacienda uso del nodo Append. Para
consegu1rlo, se usan t ecnicas de redes neuronales y de arboles de decision .
. En el ca so numero 13 se plantea un problema en el cual se tom a un conjunto de datos
que contiene los valores de seis caracterfsticas biomecanicas uti lizadas para clasificar
a las pacientes ortopedicos en tres clases (normal, hernia de disco o spondilolysthesis)
o dos (normales o anormales).
15. En el caso numero 14 se aplica el metodo de validaci6n cruzada para validar la
clasificaci6n planteada en el caso anterior.
16. En el caso numero 15, a partir del problema consistente en la receta de de farmacos
a un grupo de pacientes, se explica que sucederfa si la informaci6n a considerar en un
proyecto es pequena y c6mo se deberfa aplicar la validaci6n cruzada.
17. En el caso numero 16 se quiere vincular el contenido de las cestas de compras
con las datos personales de los compradores, adquiridos a traves de un programa
de fidel izaci6n. El objetivo es descubrir grupos de clientes qu e compren productos
similares y que se puedan caracterizar demograficamente a pa rtir de criterios coma
edad, ingresos, etc. Este problema es resuelto con la ayuda del metodo de reglas de
asociaci6n y dependencia.
18. En el caso numero 17 se plantea un escenario en el que una ficticia compafifa de
telecomunicaciones desea usar la informaci6n de una base de datos para predecrr
las posibilidades de una futura perdida de clientes (churn) . Para resolver este caso se
emplea el metodo de la regresi6n logfstica.
19. En el caso numero 18, a partir de las caracterfsticas de una imaginaria camara
refrigeradera, se pretende predecir la potencia de esta m aqui na, segun el paso del
tiempo y el impacto de una serie de etras variables. Para ello, se apela otra vez al
metodo de la regresi6n legfstica.

20. En el caso numero 19 se explica c6mo exportar los modelos y los resu ltados a diversos
formates (texto en archive piano, HTML, Excel, informe, base de datos, etc.) .
21 . En el caso numero 20 se ~plica el metodo de las seri es de tiempo en la resoluci6n
de un problema que consrste en generar predicciones p • • de los
. . , . ara 1as suscnpc1ones
usuanos de una hrpetetica empresa de telecomun ·1 · . · · la
'bl ti·1· ·, d h cac1ones interesada en ant1c1par
post e u 1zac1on e I anc e de banda.
Caso 1: Predicci6n de juego de ten,s
(arboles de decision)

Caso 2: Predicci6n de planta iris


Grupo 1
Caso 3: Predicci6n de farmacos Caso 17: Regres16n logistic
(telecomunrcac,ones churn
Caso 4 : Problemas de cluster
(caso empleados Memolum Web) Caso 18: Prediccion secuenoa
Caso 5: Agrupamientos en relaci6n a
Grupo S Caso 19: Exportac16n de modelos
las ventas C:'
y resultados

Caso 6: Datos err6neos y faltantes "£.


Caso 20 Series de tlempo
(caso empleados Memolum Web)
(pronosncar) §
Caso 7: Obtener y transformar datos Grupo 2 -'!)

a traves de ODBC (conexi6n de base


de datos abierta) Casas de aplicaci6n de mineria de datos
=
...
~
Caso 8: Catalog_forecast .'!)
..,
(series de tiempo) Caso 13: Columna vertebral r.i
(particion de datos)
-
J'J

,..,
: t)

:;
Caso 9: Computer hardware data set Caso 14: Validaci6n cruzada ;::;·
C,
·J'J

Caso 10: Detecci6n de fraude Grupo 4 Caso 15: Trabajar con Q.


ti)

pocos registros 5
::l
Caso 11. Validaci6n del modelo Grupo 3 ..,
(1)

Drug con datos nuevos Caso 16: Reglas de asociaci6n o:;·


a.
y dependencia (1)

Caso 12. lntegraci6n y


partic16n de datos -
0.
::u
0
V)

Figura 6.18 Mapa mental del capitulo 6 N


00
Blbllografia 283

BlBLlOGRAF{A
l ibro :
, Br 1m n, l., Friedman, J.H ., Olshen, R.A. & Stone, C.I. (1984). Classificaoon and
r gression trees. Belmont, California: Wadsworth.
, Duda, R.O., & Hart, P.E. (1973). Pattern classification and scene analysis. New York:
John Wiley & Sons.
, Han, J. & Kamber, M. (2006) . Data mining concepts and techniques. 2nd Ed. New York:
Elsevier.
• Hernandez, J., Ferrari, C. & Ramf rez, M. (2004). lntroducci6n a la minerfa de datos.
Madrid: Pearson Educaci6n .
, Inmon, W. (2005). Building the data warehouse. 4th Ed . Indianapolis: Wiley Publishing.
, Perez, C. (2007) . Minerfa de datos: tecnicas y herramientas. P edici6n. Madrid:
Editorial Paraninfo.
• Romero, C., Ventura, S., Pechenizkiy, M., & Baker, R. (2010). Handbook of Educaoonal
Data Mining. Boca Raton, Florida: CRC Press, Taylor y Francis.
• Jang, J., Sun, C. & Mizutani, E. (1999) Neuro-fuzzy and soft computing. A computational
approach to learning and machine intelligence. New York: McGraw Hill.

Articulos de revistas:
• Aitken, N.D. (1982). College student performance, satisfaction and retention:
specification and estimation of a structural model. Journal of higher education. Vol.
53 (1) pp. 32-50.
• Araque, F., Roldan, c. & Salguero, A. (2009) . Factors influencing university drop out
rates. Computers & education . Vol. 53, pp. 563-574.
' Ayesha, S., Mustafa, T., Sattar, A. R., & Khan, M. I. (2010). Data mining model for higher
education system. Europen journal of scientific research. Vol. 43 (1) pp. 24-29.
• Baker, R. s. & Yacef, K. (2009) . The state of educational data mining in 2009: a review
and future visions. Journal of educational data mining. Vol. 1 (l) PP- 3-17 -
, Bean, J. (1980). Dropouts and turnover: the synthesis and test of a casual model of
st udent attrition . Research in higher education. Vol 1 2 (2) pp. 15 =>- 187 ·
• Besterfj ld-S C J & Shuman L. J. (1997). Characteristics of freshman
e acre, M., Atman, .. , ' . . • J I
engineering students: models for determining student altntion in engineering. ournu
of engineering education . 86 (2) pp. 139-1 49 · . .
• Borra S & . . h d to compare nonparamett 1c class1f r and to
, . Ciaccio A. (2005) . Met o s . . · s ,
Select th . ' t 1•n ClassVicaHon and Data Ana1yst.::i. pm t, r
e predictors. New Oeve1opmen s 1 '
Ber1·
, in Heidelberg, pp. 11-19. . ,
Burtne . . . analysis to investigate the influ nr.t of
no r, J. (2005). The use of discriminant . teiice Journal of engincr--rir,
n-cog - . • school pers1s • ·
ed nit1ve factors on engineering
Ucotion. Vol . 94 {3) p. 335.
p r i t n : tructural equatio
nti n. Journal of higher education
n.

qu z, J. ( 00 }. D rci6n studiantil universitaria·


1, i n d m del d dur ion. L cturas d economfa. Vol. 60 (60) pp. 39-6S. ·
n Ho, Di Gangi S., J nna ch-P nn 11, A. Kaprolet, C. (2010) . A data mining
r h for identifyin predictor of stud nt r tention from so phomo re to junior
ear. Journal of data scienc . Vol. 8 (7) pp. 307-325 .
• Coit, D. '., Jae son, B. T., y Smith, A. E. (1998). Static neural network process models:
considerations and case studies. International Journal of Production Research . Vol. 36
(11) pp. 2953-2967.
• Des Jardins, S., Ahlburg, D. & McCall, B. (1999). An event history model of student
departure. Economics of education review. Vol.18 (3) pp. 375-390.
• Fayyad, U., Piatetsky-Shapiro, G. & Smyth, P. (1996). The KDD process for extracting useful
knowledge from volumes of data. Communications of the ACM. Vol. 39 (11) pp. 54-64.
• Fuertes, J. & Sedlacek, W. (1994). Using the SAT and non-cognitive variables to predict
the grades and retention of asian american university students. Measurement and
evaluation in counseling & development. Vol. 27. pp. 74-84.
• Giovagnoli, P. (2002). Determinantes de la deserci6n y graduaci6n universitaria: una
aplicaci6n utilizando modelos de duraci6n. Documento de Trabajo . (37) .
• Jadric, M., Garaca, Z. & Cukusic, M. (2010). Student dropout analysis with application
of data mining methods. Management. Vol. 15 (1) pp. 31-46.
• Kukar, M., Kononenko, I., Groselj, C., Kralj, K., & Fettich, J. (1999) . Analysing and
improving the diagnosis of ischaemic heart disease with machine learning. Artificial
intelligence in medicine. Vol. 16 (1) pp. 25-50.
• Levin, J., & Wyckoff, J. (1991). Predicting persistence and success in baccalaurate
engineering. Education. Vol. 111 (4) pp. 461-468.
• Lykourentzou, I., Giannoukos, I., Nikolopoulos, v.,
Mpardis, G. & Lou mos, V. (2009).
Dropout prediction in e-learning courses through the combination of machine learning
techniques. Computers & education. Vol. 53 (3) pp. 950-965.
• Mendez, G., Buskirk, T. D., Lohr, S. & Haag, s. (2008). Factors associated with persistence
in science and engineering majors: an exploratory study using classification trees and
random forests. Journal of engineering education . Vol. 97 (1) pp. 57-70 .
• Murtaugh, ~-A., Burns, L.D. & Schuster, J. (1999). Predicting the retention of universitY
students. Higher education . Vol. 4, pp. 355 _ _
357
• Nandeshwar, A., Menzies, T. & Nelson A (20ll) L . tt f university
student retention E . , . . earning pa erns o
. . · xpert systems with applications. Vo l. 38 (12) pp. 14984-14996 ·
• Nora, A., Attinas1, L.C. & Matonak A (1990 ) i . . allege
factors in Tinto's attriti d : • · esting qualitative indicators of prec r
on mo e.1 a communit II I . Review 01
higher education, Vol.l 3 (3 }, p_ _ Y co ege student popu ation.
337
Blbllografia 28

• Pasca rella, E.T., Y Terenzini, P.T. (1983). Predicting voluntary freshman year persistence/
withdrawal behavior in a residential university: a path ana lytic validation of tinto's
model. Journal of educational psychology. Vol. 75 (2) pp. 215-226 .
• Romero, C. & Ventura, S. (2007) . Educational data Mining: A Survey from 1995 t o
2005. Expert Systems with Applications. Vol. 33 (1) pp. 135-146 .
• Schaefers, K. G., Epperson, D. L., & Nauta, M . M. (1997). Women's career development:
can theoretically derived variables predict persistence in engineering majors? Journal
of counseling psychology. 44 (2) pp . 173-183 .
• Spady, W. G. (1970). Dropouts from higher education : an interdisciplinary rev iew and
synthesis . Interchange. Vol. 1(1} pp. 64-85 .
, Yathongchai, W., Yathongchai, C., Kerdprasop, K., & Kerdprasop, N. (2003). Factor
analysis with data mining technique in higher educational student drop out. Latest
advances in educational technologies.

Tesis:

• Blanco, R. (2007). Extracci6n y contextualizaci6n de reg/as comprensibles a partir de


mode/as de "caja negra". Memoria para optar al grado de Doctor en Informatica.
Universidad Politecnica de Valencia, Valencia .
• Gaskins, B. P. (2009}. A ten-year study of the conditional effects on student success in
the first year of college. Bowl ing Green State University, Ohio.
• Gonzalez, L. (2005}. Una arquitectura para el an6/isis de informaci6n que integro
procesamiento analftico en lfnea con minerfa de datos. Tesis para optar par el grado
de Maestro en Ciencias con especialidad en lngenierfa en Sistemas Computacionales.
Universidad de las Americas Pue bl a, Puebla.
• Loaeza, J. (2009}. Herramienta de minerfa de datos basada en el a/goritmo C4.5 y su aplica-
ci6n al inventario muti/f6sico de fa personalidad Minnesota 2. Tesis para obtener el grado de
Maestro en lngenierfa Electrica. Universidad michoacana de San Nicolas de Hidalgo, Morelia.
• Molero, G. (2008). Oesarrollo de un mode/a basado en tecnicas de minerfa de datos
Pora c/asificar zonas cfimato/6gicamente similares en el estado de M,choacdn. Tes1s
Para optar por el grado de Maestro en lngenierfa de computac16n. UNAM, Mexico D F.
• Moreno, B. (2009) . M inerfa sabre grandes cantldades de datos. Tests para obtener el
grado de Maestro en Ciencias. UNAM, Mexico D.F.
• Recanses, J. (20 ll). lnteligencia de negocios y automatuac,6n en la gesti6n de_puntos
Yfuerzo de ventas en una empresa de tecnologfo . Memoria para optar par el titulo de
lngeniero Civil Industrial. Universidad de Chile, Santiago de Chile.

Ponencias:
3
' A.l_khasawneh R & H b R Modeling Student Retention in Science and Engine r 111'
D1s . . , . o son, . .
1
En c_Plines Using Neural Networks. Learning Environments and Ecosvstem m
" 91 neering Ed t,· IEEE Global Engineering Education Conference (EDUC O ).
"'mm . uca on .
an, Jordania, abril de 2011.
286 Oc1tc1 mining - Mlnerit1 de datos

• Dekker, G., Pechenizkiy, M. & Vleeshouwers, J. Predicting students drop out: a case
study. International Working Group on Educational Data Mining. II International
Conference on Educational Data Mining {EDM). Cordoba, Espana, julio de 2009 .
• French, B. F., lmmekus, J. c. & Oakes, W. A structural model of engineering st u-
dent's success and persistence . Paper presented at the Front iers in Educat ion
Conference, 2003 .
• Goddard, J.C, Cornejo, J.M, Martinez, F.M., Martinez A.E., Rufiner, H. L. & Acevedo,
R. C. Redes neuronales y arboles de decision: un enfoque hfbrido. Memorias de/
Simposium Internacional de Computaci6n organizado por el lnstituto Politecn,co
Nacional. Mexico, noviembre de 1995.
• lmbrie, P. K., Lin, J. J. & Malyscheff, A. Artificial Intelligence Methods to Forecast Eng111 1:
ring Students' Retention based on Cognitive and Non-Cognitive Factors. Paper pre_en-
ted at the Annual Conference of American Society for Engineering Education , 2008
• Zhang, Z., & Richarde, R.S. Prediction and Analysis of Freshman Retention. Paper pre-
sented at the Annual Forum of the Association for Institutional Research (AIR}, 1qq .
• Nghe, N. T., Janecek, P., & Haddawy, P. {2007, October}. A comparative analv ,~ f
techniques for predicting academic performance. In Frontiers In Education Con e en-
ce-Global Engineering: Knowledge Without Borders, Opportunities Without Pa iJOt ts
2007. FIE'07. 37th Annual (pp. T2G-7}. IEEE.
• Wu, X., Zhang, H., & Zhang, H. (2010, October}. Study of comprehensive evaluation
method of undergraduates based on data mining. In Intelligent Computing and lntt
grated Systems {ICJSS), 2010 International Conference on. (pp . 541-543) . IEEE
• Lin, J. J., lmbrie, P. K., & Reid, K. J. (2009}. Student retention modelling: An evaluatll n
of different methods and their impact on pred iction results. Research in En gineuinJ
Education Sysmposium.
• Sembiring, S., Zarlis, M., Hartama, D. & Wani, E. (2011} . Prediction of Stud nt cJdt
mic Performance by an Application of Data M ining Techniques. Proc cd,ng 1J /ntt'r
national Conference on Management and Artificial Intelligence.

Fuentes de internet:

• Llombart, 0. (16 de enero de 2010}. Metodologfa de data minning RI P. ~Ii fr h 1


re.com. Recuperado en mayo de 2016 de: <es.slidesh r .n t/oal nso, nWtl dl lo
ga-de-data-mining-crisp>.

• Virseida,_F. & R~man, J. _{s.f.}. Mine~(~ de datos y aplicacion s. R up rad 11 111 ,1\ 1 d tl
2016 de. <http.//www.1t.uc3m.es/Jvlllena/irc/practicas/06-07 /22.pdf .
• Jimenez A. & Alvarez H. Minerfa de datos en Jo educoc,·o·n (20l0) T b • d
d I
. · · . Ira j 1.1 1::-.lt, 11,1tu
ra e lnte 1genc1a en redes de comunicaciones Dep rt d . 1· 1
. . . · a amento In ni riJ Tl 1f1 tn,i 1 • •
Univers1dad Carlos 111 de Madnd Madrid Recuper d
. ., . . ' · a o en mayo d 01 cl, 1,1 s1 \\lll'11tl'
d1recc1on web. <https://www.1t.uc3m es/jvillena/· / •
. . . · ire practicas/l0- 1 L/08m m pot--
• <http://arch1ve.1cs.uc1.edu/ml/> Consultado
· en mayo d 201
• <http://users.dsic.upv.es/~joral lo/mast r/cu h
rs. lm 1n>. Consultc1d n m,1 1 0 d1 1 } l) It
lmpreso en los talleres graficos de

Surquillo
DATA
MINING MINERiA DE DATOS
Alfred □ Daza
Vergaray
La mineria de datos es una practica de analts1s que perm1Le ,· a
obtener un determinado conocimiento a part,r de la
informaci6n extraida de una base de datos El objet1vo del C'Jf'"•a C')

presente libro es instru1r al lector en esta d1sc1plina y grnarlo


en el desarrollo de modelos descnptivos y pred1ct1vos que
fac11tten la toma de dec1s1ones en una organizaci6n, a parttr
de la herram,enta SPSS Clementine, uno de los programas
mas usados hoy en dia para ese fin.

Entre los principales temas abordados en esta obra se hallan


la metodologia y las tecnicas de este campo, las caracterist,-
cas de SPSS Clementine, las opciones de su interfaz y las
pasos para su instalac16n. Ademas de ello, se proponen
veinte casos practicos que son resueltos de manera didact,-
ca con tecnicas coma los arboles de dec1s16n, las redes la Facu ad d"
Cesar Valle,::>
neuronales, las clusteres, las series temporafes, las reglas de
asociaci6n y dependencia, la val1dac16n de datos err6neos, y
la integraci6n y partici6n de datos.

Este libro esta dmgido a todos aquellos que neces,ten


efectuar dec1siones a partir def analts,s de grandes bases de
datos. Por tal mot,vo, representa un aporte valtoso para los
estudiantes y profes1onales de fas carreras de lngerneria de
Sistemas, lngenieria Industrial, Estadist,ca. Admmistrac,6n
de Empresas, Marketing, Med,cina, Educac16n, entre otras

Temas principales: Mat ri I d d scar a


- Bases de datos
- Data warehouse
- Redes neuronales
- Arboles de decisi6n
- Modelos predictivos

Oficina principal
• Av. Paseo de la Republica 5613, M,rallores, L,ma, Peru
• Central telef6ntc,r (511 } 748 0560
• E-mail: ventas@ editorialmacro.com
[email protected]

También podría gustarte