Dataminingcompressed 191022013031 PDF
Dataminingcompressed 191022013031 PDF
,
MINERIA DE DATOS
MINERiA DE DATOS
Peru · Mexico . Colombia . Chile . Ecu dor . E paiia . Bolivi<1 - Uruguay · Guat rnala - Costa Rica
Data mining
Minerfa de datos
Autor: Atfredo Daza Vergaray
Coordinaci6n de edici6n:
Magaly Ramon Quiroz
Diseno de portada:
Rudy Herrera Torres
Correcci6n de estilo:
Martin Vargas Canchanya
Oiagramaci6n:
Julissa Ventocilla Fernandez
lmpresi6n
Talleres graficos de la Empresa Editora Macro EIRL
Jr. San Agustin N.° 612-624, Surquillo, Lima, Peru
Prohibida la reproducci6n parcial o total, por cualquier medic o metodo, de este libro sin previa
autorizaci6n de la Empresa Editora Macro EIRL.
Alfredo Daza Vergaray
lngeniero de Sistemas e Informatica egresado de la Universidad Nacional del Santa,
cuenta con estudios de Doctorado en lngenierfa de Sistemas en la Universidad
Nacional de lngenierfa (UNI}. Especialista en el manejo de bases de datos, en data
warehouse yen sistemas de gesti6n de datos como SQL Server y Oracle.
Dedico este libro, ademas, a mi hermana Ana Rosa Daza Verga ray, quien es na
persona a la que respeto y admire mucho por los consejos que me brind6 en
diferentes etapas de mi vida y por ser alguien a quien siempre toma re coma ejemplo
para poder mejorar siempre.
Tambien quisiera dedicarle este Ii bro a mi esposa Nataly Yessenia Risco Bocanegra, a
quien admiro y me siento orgulloso. A ella nunca me cansare de decirle que la amo
y de agradecerle por ser paciente mientras yo cumplia mis met as y por darme dos
hermosos hijos que me recuerdan a ella cada vez que los miro.
Por ultimo, quisiera dedicar este libro a mi hijo Aaron Alfredo Daza Risco, qu ien fue
mi inspiraci6n para poder seguir estudiando cuando todos pensaban que habia
enterrado mis suefios; con el pod re decir que lo logramos juntos en una et apa de la
vida. Por otro lado, tambien tengo muy presente a mi hijo Luis Alfredo Daza Risco,
quien es un regalo que Dios me dio para poder veneer una etapa muy dificil de mi
vida en la cual el fue mi primer apoyo con sus tiernas Y dulces palabras que me hacian
reir, y por acompafiarme mientras escribia el Ii bro e imitarme con una sonrisa cuando
tecleaba en la laptop.
Agradecirnientos
Agradezco a la Universidad Cesar Vallejo por permitirme mejorar profesionalmente y
realizar trabajos de investigaci6n en el campo de la mineria de datos ya la Universidad
Nacional de lngenierfa por incentivarme a investigar este tema, el cual forma parte de
mi tesis doctoral en lngenieria de Sistemas.
l: nceptos b11si 'O ~ de mineda de dato"- .......................... ...... 1
at ... .......................... .... .......... ..... ................. ............ .................................. 15
DD .................................... ......................... ................... .. 1
RI P ...... ........ .......... ...... .. .. ....................... ................. ........ ..... ... ... ............... 17
e .......................................... ..... .... ......... .............. ......... ....... .................................. .. 20
MCl1<1e1l'O hibrid .................... ................................... ....... ................... ................................. 20
icci · n ...................................................................... .......................................... ... ....... 21
,n;,,~de da (d ta ~vareh use) ....................................... ........................... ....... ........ 21
men .................................................................................................................................. 22
i a i "ndelamineriadedatos ...................................................................................... 37
.. 1 i eria e d t sen la educa ion .................................................... ... ..................... 39
Resumen ................................................................................................................................... 92
6.4 Caso n. 4: Problemas de cluster (caso empleados Memolum Web) ............ .................. 136
0
0
6.7 Caso n. 7: Obtener y transformar datos a traves de ODBC
(conexi6n de base de datos abierta) ............................................................. .166
0
6.8 Caso n. 8: Catalog_forecast (series de tiempo) ......................... ..................................... 176
0
6.9 Caso n. 9: Computer hardware data set .........................................................................181
0
6.10 Caso n. 10: Detecci6n de fraude .................................................................................. 187
0
6.11 Caso n. 11: Validaci6n del modelo Drug con datos nuevos 195
6.12 Caso n. 12: lntegraci6n y partici6n de datos ............................................................... 200
0
613 ° .. .......................................
6.14 CCaso n.o 13: Col.um~~ vertebral (partici6n de datos) .....................................................210
· aso n. 14: Vahdac,on cruzada.................................. 220
6.15 Caso n.o 15: Trabajar con pocos registros ... .. ................................................. 224
6.16 Caso n.o 16: Reglas de asociaci6n y depend~~~i~........................................................... 233
6.17 Cason o 17· Reg . , I , . .. ...................................................... .
6.18 Caso n.o 18·· Predr~s,~~ og1stica (telecomunicaciones churn) ........................................ 243
· · 1cc1on secuencial S4
6 ·19 Caso n·o 19: Exporta · ' d ..... .. .... .. .... .... .. .. .. .. .. .. . .. .. . ....... · .. · ...................... ·.. .. ... 2
6 20 o . c1on e modelos y resultados. 261
. Cason. 20: Series de tiempo (pronosticar) .......................................................267
Resumen .................................................................. .
................................................................... 279
BIBLIOGRAFfA ............................................................. .
.......................................... 282
·····································································
lntroducci6n
, I it t'll<l t' t1h,s ,· )1)$l 1lll yi' llll ,l pi,l Hr,l de .in,\li ,is ~lie p rmil: obl ener un
,--. t'II 11 , :I c- )n •i1 l it' ll l l' 111 1prn t11nk ,1 p.1rtir del mJn jo de la inforrnacion
'='' 1\H ,, dl' uth1 , 1 1,111 ,1 :;t ci t' t ,t ~. Fl bjc tivo u, , t, li bro cs ofr cer al lector
t 1lsi ' l' ·t c1 ilcll idad prira, media nt su apli acion, obtener
ir n m ls pr f rn1 ul rir pr di cion a partir de las cua les poder
u v z. lri t rna ci d i i n s c1I int rior de una empresa.
A traves de todos estos aportes, el presente libro quiere servir al lector corno
un manual que le permita introducirse en el mundo de la minerfa de datos a ,
, Si
com~ una gufa que le ayude a realizar proyectos academicos y empresariales
medrante esta, en especial, a partir de las herramientas provefdas por el software
SPSS Clementine.
Conceptos basicos
de mineria de datos
Objetivos
Contenido
1 _1 Mineria de datos
La mineria de datos se ha definido de diferentes maneras. A continuaci6n, se mencionaran
algunos de e st os -~oncepto~ para un mejor entendimiento, en especial, por aque llas
personas que recien se esten iniciando en el maravilloso mundo de la extracci6n del
c nocimiento:
A. Primera definici6n
La mineria de datos se define como aquel proceso que consiste en extraer conocimiento util
y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados
en distintos formatos. En ese sentido, la tarea fu ndamental de la mineria de datos es
encontrar modelos inteligibles a partir de los datos recogidos (Hernandez et al., 2004) .
B. Segunda definici6n
Segun Hernandez et al. (2004), la minerfa de datos implica un proceso de
descubrimiento de nuevas y significativas relaciones, patrones y tendencias que son
observadas al examinar grandes cantidades de informaci6n.
C. Tercera definici6n
Segun Han y Kamber (2006) la minerfa de datos se refiere a la extracci6n de
conocimiento o «mineria» de grandes cantidades de datos. Sin embargo, de acuerdo
con su perspectiva el nombre seria, en realidad, inapropiado, ya que, por ej emplo, la
actividad minera que extrae oro de las rocas ode la arena se conoce como «minerfa de
oro» en vez de «mineria de roca» o «de extracci6n de arena». Por ende, partiendo de
una 16gica similar, la mineria de datos deberia haber recibido el nombre mas apropiado
de «minerfa de datos del conocimiento», el cual, por desgracia, es un poco largo.
Ahora bien, sucede que «minerfa» es una palabra que porta la idea de un proceso por
el cual se extrae un pequeno conjunto de elementos (pepitas) poseedores de una
cierta cantidad de materia prima (metales preciosos). Asi, a pesar de ser un nombre
poco apropiado, al vincular las ideas de datos y extracci6n, «mineria de datos» se
ha convertido en una opci6n mas popular. Frente a esto, lo unico que cabe advertir
es que existen muchas otras expresiones similares a esta, las cuales, empero, tienen
un diferente matiz de sentido, tales coma la mineria de datos de conocimiento, la
extracci6n de conocimientos, analisis de datos, analisis de patrones, arqueologfa de
datos y filtraci6n de informaci6n.
D. Cuarta definici6n
Segun Gonzalez (2005), la mineria de datos es el proceso por el cual se genera un
modelo util para la predicci6n. Dicho mode lose construye teniendo coma fundamento
los datos que se encuentran en una base de datos, a las cuales se le ha aplicado algun
algoritmo justamente con el fin de plantear un modelo.
rlJ d , It qu lu min, rl, d , d;m 'i ~, un pro QU lntegra los datos
nt , ( 11 rvPr, rJ Ir•, r r. l, Pt .) par , p •"t ri rrnente, extraer un
n 1ml nl , ''1 dN Ir, 1(1 •nt1fi1 i1r Inf rm t: 16n tr nd nt , vallosa Yutil, a
JI I {, Ir tltu I r, c• v n J p d r l m, r lgun lgnlfi ti va decisi6n.
- •,.,.,.·.,..,.•, I, "'"·. . ,I -
I I ◄
I, lf,101
l ul ,r I )111 l l).rl. l
Pil ll N n
I Knowledge
Flsura 1.1 D J, ·rip i6n ec.• t1 01'J I tit• I ~ J)d',1 ·, q 11(' OW, t lt 11yf'l1 (• I pr KDD
Fuente : ravv \J er uf. (19% ).
[El) CRISP-OM (Chapman et al., 2000) consta de cuatro niveles, organizados de forma
jerarquica en tareas que van desde el nivel mas general hasta los casos mas especff1cos.
En el nivel general, el proceso esta organizado en seis fases: analisis del problema, anallsis
de datos, preparaci6n de datos, modelado, evaluaci6n e implementacl6n. A su vez, cada
fa se consta de tareas generales de un segundo nivel (Figura 2.5). Estas ta reas generales se
proyectan a tareas espedficas, donde se describen las acciones que se deben desarrollar
para cada situaci6n especifica.
Modelo
generico
[ I
Pro ecc16n
(I
a
l
Modelo
especifico
at
~ :
m rensi ·
I e l da
nta - n
atos
,/
/
.;
.,,.,,,
,,,..,,..
✓
L----- -----------------------
Figura .6 ,,s s t>I
:;-,,....
' ..
Fuente:
..-...r
L------ -------------
Capfbalo 1: Conceptos buk:os de mtnena de datos
La secuenci a de las fases no es est ricta, puesto que estas pueden intera ctuar entre si
durante el desa rrollo del proyecto. De esta manera, la siguiente fase en la secuencia, a
menudo depende de los resultad os asociados con la fase precedente . Las flecha s indican la s
dependencias significativas entre las diferentes fa ses, por ejemplo, si se esta en la fase de
modelaci6n, es posible volver a la fase de preparaci6n de datos para refinar los datos, antes
de seguir con la fase de evaluaci6n (Larose, 2005) .
El plan del proyecto describe los timing para alcanzar los objetivos. Al respecto, cabe
destacar, coma un aporte particular, que un estandar de facto es que el reparto se
constituya de acuerdo a los siguientes porcentajes:
Volviendo a la tesis de Melero (2008), se puede describir cada una de las fases de la
metodologfa CRISP segun esta serie de pasos indicados por el autor:
1. Analisis del problema. En esta fase inicial se debe comprender con claridad los objetivos y
requerimientos del proyecto, con la finalidad de elaborar una buena planeaci6n en el desarrollo.
2. Analisis de los datos. Se establece el contacto directo con el problema. Las actividades a realizar
son: la recolecci6n inicial de datos, la identificaci6n de la calidad de las datos y el establecimiento de
posibles relaciones mas evidentes que permitan obtener las primeras hip6tesis.
3. Preparaci6n de las datos. Aquf se realiza la selecci6n de datos a las que se va a aplicar la
tecnica de modelado (variables y muestras), la limpieza de los datos, la generaci6n de
variables adicionales, la integraci6n de diferentes conjuntos de datos y cambios de formate.
Esta fase laboriosa, esta directamente relacionada con la fase de modelado, puesto que, en
funci6n de la tecnica a utilizar, los datos necesitan ser procesados en diferentes formas.
4. Modelado. Aquf se seleccionan las tecnicas apropiadas para el desarrollo del proyecto. La
tecnica a emplearse en esta fase debe ser seleccionada en funci6n a los siguientes criterios:
ser apropiada al problema, disponer de datos adecuados, cumplir los requerimientos del
problema, y el conocimiento de la tecnica.
5. Evaluaci6n. En esta fase se evalua el modelo, no desde el punto de vista de los datos,
sino del cumplimiento a los requerimientos iniciales. Antes de proceder a su implantaci6n
para su uso habitual, se debe revisar todo el proceso teniendo en cuenta los resultados
obtenidos, e identificando posibles errores que llevan a repetir algun proceso anterior.
6. lmplementaci6n. Si el modelo generado es valido, desde el punto de vista de cumplimiento
a los requerimientos iniciales, se precede a su implementaci6n y explotaci6n. Normalmente
los proyectos de minerfa de datos no terminan en la implementaci6n del modelo, sino se
deben documentary presentar los resultados de manera comprensible para alcanzar un mejor
entendimiento del conocimiento.
[...] cada uno de ellas [el AD Y el RN] puede presentar distintas dificultades en las aplicaciones
del mundo real. Par ejemplo, las AD pueden ser pocos flexibles para generalizar sabre datos de
prueba y excesivamente ramificados. En el casa de los PMC hay que definir su estructura numero
de nados y ca pas y aun definida esta, no hay garantfa que converja a una soluci6n ace~table.
1.6 Predicci6n
n la predicci6n I obj tivo es desa rroll
ar un modelo en el d
p cto d Io d ato (variab le predi ch ) . que se pue a inferir un solo
a a partir de una b. .,
d los mi mos (va r iabl es predict o ra s) L d. . , com inac1on de otros aspectos
. · a pre IccIon requ ·
p r la va ri able de sa lid a de un con · t . . ,ere, ent onces, t ener etiq uetas
. Jun o 1im1tado de datos I I .
r pr senta una 1nformaci6n de confian b , en e cua un a etiqueta
za so re el valor de la · bl d 1·
sp d ficos. En alguna s ocasiones sine b . vana e e sa 1da en casos
n que estas etiqueta s pu eden s: r de hm :rgo, es _,mportante tener en cuenta el gra do
ec o aprox1mada o incompletamente fiables
De acuerdo con Jimenez & Alvarez (20l0) en 1 , b. . ·
m ineria de datos tendrfa dos • ' e am ,to educatlvo la predicci6n mediante
usos Import antes:
En algunos casos, m . etodos de predic ci·6 n pue d en ser usados para estudiar que caracterfsticas
d e un mo d eIo son 1mportantes para u na pre d'1cc1on,
· · dando ·informaci6n sabre la construcci6n
su b yacente. Este es. un enfoque
. comu n en programas de ·investlgacion
• , que tratan de predecir
r~sultados educac,~nales sin predecir anteriormente factores intermedios. En un segundo
tip? de uso, los metodos de predicci6n son utilizados para predecir cual sera el va lor de
s~hda en context~s donde no es deseable obtener una etiqueta para esa construcci6n (par
eiemplo, en ocas,ones en las que no haya datos etiquetados).
Segu~ lo afirmado por estos autores, a traves de esta operaci6n resultarfa posible,
por eJemplo, predecir el salario de los graduados de una universidad con 10 afios de
experiencia laboral, el estilo de aprendizaje mas adecuado en la ensefianza del curso de
Matematica I en la escuela profesional de lngenieria de Sistemas, asi como el potencial
de ventas en el mercado de un nuevo producto, segun su precio.
a. Conj unto orientado: los datos que se encuentran en un data warehouse (OW) estan
vinculados con las operaciones de una organizaci6n, por ejemplo, con las actividades
de venta y compra, con los clientes, con el area de Recurses Humanos, etc.
b. Datos integrados: los datos tom ados de distintos sistemas de la empresa son
recopilados y almacenados en una fuente coherente Y homogenea .
c. Variables en el tiempo y no transitorios: los datos del data warehouse (OW) incluyen
los datos actuales e hist6ricos de la organizaci6n, suelen almacenarse como agregados
Y no deben ser eliminados, ni modificados.
1. La mineria de datos c nsiste en I ra i n d I onocimiento que se encuentra
acumulado en diferentes n, tores de base de datos (archivos pianos, base de datos
relacionales, etc.) cuya extracci • n permite obtener informaci6n util Y comprensible
que aportara una entaja competitiva a una empresa en la toma de decisiones frente
a otras dedicadas al mismo rubro.
2. El proceso de mineria de datos (KOO) y la metodologia CRISP consisten en un conjunto
de pasos que van a permitir construir una aplicacion a partir del analisis del problema,
el analisis de los datos, la preparaci6n de los datos, el modelado y la evaluaci6n e
implementaci6n (hacienda uso del metodo espiral hasta llegar a los resultados deseados).
Comprensi6n ~ - Comprensi6n
del negocio ~ de los datos
Prep r cl6n
d lo d t
lmplantac16n
Mod lad
Datos
Evaluaci6n
3. Un modela es la representaci6n
, de alga abstracto por alg n r t . _n 1Cc 0 d I
modelo de minena de datos, este se encuentra repr se ntado p r la
entrada que repre~entan los campos de las tablas de las bas 5 d d t
tecnicas
, de minena , . varias . Entre ellas fig ur n Ia r d . n ur n 1I s, lo
.. , de datos. son
arboles
. de dec1s1on, la regres,on
. lineal, la regresi6n log,'sti· ca, 1a ri
•
d ll •niP') , c (
A partir de estas se va a val,dar el modela' asi coma tamb 1· , n a variabl , l 1, que
d ~<111t,
1
representa el valor a obtener.
Capitulo 1: Conceptos basicos de mtneria de datos
CRM Call
and
Center
eCRM
Marketing
Campaign I Internet
Mgmt
Enterprise
Data
Financial/ Warehouse Inventory
Accounting
\
Procurement HR
I
I 111 ,111111111 111 dt. 1111111111 II • I 'I, I I I I 1',dlh 1 t 11\' ltl I II , \1 h 1t\1' ,,1,
,,, 11,111 II I II, .111,,,h,d,11 d,·11111111 h 11 11 11 111111 ,I 1,1 1' h11 ·" h'II 1q,, '"''
lt11 1di,llll1 1 l.1111111,·111,h d,11, 1• \ d,• l,111111\\ ". t, I 1111 ., I ,111111! I \1 1, ,hi\\
t, ,,,1--111,1 ,·l.111.llhl\lll,111111111,1111 • l,1.,,,11, II 111,111,h•, I,
ont , ldo
Mod, Iii•, ti, • 1111111 1 11.i d, 1 ii 1111•,
1
;,, M1•l1 11 l11 , d1111il11r •1l.1 d1 tldlP 1•
1
Para
· dentender
• coma
. funcionan
., . arboles de decision se ha ere,'d o per t·nente
. los 1
Clima
nublado lluvioso
Juega
falso verdadero
Ricardo Blanco brinda en su tesis otro ejemplo para entender las arboles de decision.
Lpetalwidth?
( lris-setosa lpetalwidth?
lpetallength 7 lris-virginica
lris-versicolor lpetalwidth?
( lris-virginica J lris-versicolor
En la figura 2.3 se puede observar un algoritmo basico para generar un arbol de decisi6n a
partir de un conjunto de ejemplos, utilizando la tecnica de «partici6n».
Figura 2.3 Algoritmo de aprendizaje de arboles de decision por «partici6n» (divi de y vcncerii:,)
Como puede
. ·, verse, una caracteristica
d importante de es t os a 1goritmos
.
es que un a vez eIeg1·da
Ia pa rti cIon ya no
., se pue e cambiar , au nque mas tarde se pudiera comprobar que hil sI·d0
,
una ma Ia elecc1on. Por tanto; uno d I , .
. t d . e os aspectos mas Importantes a con siderar en csto~
sis emas es eI enom1nado criteria de rti ·,
. pa cion, ya que una mala elecc ion de la partici6n
(especralmente en las partes superiores del , b O I) , .
ar generara un arbol peor.
Por lo tanto, las particiones a considerar 1
• •
diferencian fundamentalmente a d. _Ye cnteno de se leccion de parti ciones son lo que
I
fecha coma CART ID3
, ,
c t
, 4 .5, e c.
os ISUntos algoritmos de «particion » existentes hr1 5la la
Por ejemplo, el arbol de la figura 2.4 se puede expresar como el conj unto de reg las sigu ientes:
Como hemos mencionado anteriormente, las particiones son un conjunto de cond iciones
exhaustivas y excluyentes. Cuantas mas pa rticiones permitamos mas expresivos podran ser
los arboles de decision generados y, probablemente, mas precises. Ade mas, mas posibilidades
tendremos de encontrar los patrones que hay detras de los datos. No obstante, cuantas mas
particiones elijamos, la complejidad del algoritmo sera mayor.
Por tanto, la calidad de un algoritmo esta determinada por el compromise entre expresividad
y eficiencia.
0 1
0
0 0 0
0 X > 0.25
0 □ □ □ □
□ □
0 □ □ □ X > 0.66
X > 0.75
□ □ 0 0
0
□ □ 0
1
Y > 0.25 y > 0.6
Figura 2.5 Partici6n cuadricular del espacio obtenido por un arbol de decision para un problema
con dos atributos (Xe Y) numericos
l
Asl, n probl mas d la ifi a ion, un mod lo es jimplicltamente o explicitamente) unil
div1s16n d I p 10 d tn tan ,as n region s, ada una de las uales se les asigna 1mil
d t rmtn da I s d las posibl s. Dado un conjunto de ejemplos de ent renarnien lo del Ltill
r nd mos un mod lo, este s preciso si las reglones que prod u e co incide con las regione~
v rd d ras d sos jemplos; el algorlt mo produce modelos estables si prod uce las mismas
r gl n s al proporclonarl dos dif r ntes conjuntos de entre namien to del m ismo domin10;
Y I s m d los son comprensibles en cuanto ind lea claramente (a un usuario hu mano) c11ales
s n I s r g1ones de la clase .
Basandose en la idea de buscar particiones que discrlminen o que consigan nodos mas puros
(donde un nodo puro es aquel en el que los ejemplos que caen en el son t odos de la misma
lase ), se han presentado en las ultimas dos decadas numerosos cri terios de particion, tales
omo el criteria del error esperado, el criterlo Glni, los criterlos gain, gain ra tio y el criteria
usado en el algoritmo C4.5 y el DKM . Estos crlterlos de particlon busca n la particion s con la
menor lmpureza l(s), definlda de la slguiente forma:
Baja esta formula general, cada criteria de partic16n implementa una funci6n f distinta, como
se muestra en la tabla 2.1:
Crlterio /( 1
pl, l
p, c
... , p)
I I
Error esperado 1
min(p ' p 1 ' ... , p ' )
Entropfa (gain)
LP log(p)
I I
La red neuronal tipica se compone de tres tipos de capas, a saber: la capa de entrada,
la capa oculta y la capa de salida. Es importante observar que hay tres tipos de capas,
no tres capas en la red. Puede haber mas de una capa oculta y la complejidad de esta
depende de c6mo el investigador plantee el modelo.
La capa de entrada contiene las datos de entrada, la capa de salida es el resultado,
mientras que la capa oculta realiza la transformaci6n y la manipulaci6n de datos.
Debido a que la entrada y la salida estan mediadas por la capa oculta, las redes
neuronales son comunmente vistas como una especie de caja negra.
Benjamfn Moreno (2009) sostiene que el llamado perceptr6n multicapa (multilayer
perceptron) es uno de las modelos de redes neuronales mas utilizados. Este surgi6
de una generalizaci6n del modelo propuesto par Rosenblatt en 19582 . Este modelo
planteaba un perceptr6n simple de una sola neurona para separar par medio de un
hiperplano un conjunto de entrenamiento linealmente separable (Moreno, 2009).
Explica y detalla este autor:
/
En el caso de las seres humanos dentro del cerebra existe un numero equivalente de 1010
de neuronas y con un aproximado de 104 interconexiones entre cada una de ellas. A nivel
del funcionamiento de cada neurona, este es muy lento comparado con un procesador
(las neuronas realizan 10 operaciones par segundo mientras que las procesadores realizan
millones de operaciones par segundo).
Las partes que conforman a una neurona son tres: las entradas llamadas dendritas, el cuerpo
mismo de la neurona y las salidas llamadas axones. En la pa rte final de cada axon se encuentra
un elemento que permite la comunicaci6n con mas dendritas de otra neurona, llamado
sinapsis. Las neuronas aceptan miles de sei'lales de entradas con una fuerza determinada,
dependiendo de estas la neurona emite una sei'lal de respuesta, par lo que las sinapsis
pueden entonces trasmitir una sef\al debil o fuerte dependiendo de la fuerza que haya salido
del procesamiento de la neurona. Desde un enfoque matematico el funcionamiento de una
neurona puede representarse par una lista de sus seflales de entrada que son multiplicadas
par sus pesos correspondientes y despues son sumadas cada una de las entradas.
2
Vease el articulo de Rosenblatt: Rosenblatt, F. (1958). The perceptron: a probabilistic model for Information storage and
organizationin the brain. Cornell Aeronautical Laboratory Psychological Review. Vol. 65. pp. 386-408.
--,
e la , u a, q ee ntrada acia las de as ne rn as
It , El , del I perceptr6n sim e es uno de m c as
na·l am ial. t ual ttataba de imitar el compo lamient
n njunt de e ntradas a nes simples ~as cuales s
u . d la neurona a t ra · s de un conJu to de
eptr6n se encuentra una funci6n Que su a
n d ta neurona, En la figura 2.9 se m esn-a
un re ptr6n simple.
' )
n r-,ta
Termina i ne
del Jxo n
uer e la
·oma) ma is
~
Nu I
Mielina
/
Sinap is
siguiente
EntrJda
Sali a
f (l )
\x n
A. n Dendritas
in, psi
T nt el p rteptr6 n simple corno el perceptron multicapa (PMC) son repres ntaci 1nes ~
un a r d n uronal Jrtifi i;,il. Cuando se unen varios perceptro nes en una capa tirnul 5 vI s
re lbidos en las entr(ldas de · ada uno son sun1ados, se considera que se ti ne uI1,1 rt:1d
neuron I. El - nfoq ue d I PM C e, precisame nte cornbin ar varios percep tr n simpl es e ll un
esq uema d nd la sa lid s de ada uno, son tran smitidas vari as ca pas hast a ll egar fi11<il rnentt:1
las salidas d los PM .
Capttulo 2: Tckntcas y apbci4n de la mlnena de datos
La estructura de PMC esta dividida por capas las cua les son: la capa d entrada, la s)
capa(_s) oculta(s) Y la(s) capa(s) de salida(s). En este ti po de red neurona l artificial se ingre a
un numero de entradas que van conforme al numero de neuronas que hay en la apa de
entrada, despues estas se conectan con las neuro nas de la capa oculta por rn dio de verti .es,
en donde cada salida de las neuronas presentes en la ca pa de entrada, se asocia a c da una
de las neuronas en la capa oculta.
Una vez que estan conectadas todas las sa lidas de la ca pa de entrada a las entradas de las
neuronas de la capa oculta, se repite el mismo procedimiento en caso de qu se presenten
mas capas ocultas, si no es el caso las salid as de cada neurona en la capa oculta es conectada
a la capa de salida, de la misma forma que se describi6, teniendo finalmente las salidas fi nales
del PMC. En la figura 2.10 se muestra el esquema basico del PMC:
1--~ s.
En las decadas de los 60 y 70 no hubo metodos de entrenamiento apropiados para los PMC, se
vio detenido el interes por estas tipologias. Fue hasta mediados de los 80 cuando Rumelhart
[52] propuso un metodo de entrenamiento para las PMC llamado retropropagaci n
(backpropagation ).
1. Determinar la arquitectura.
• Cuantas unidades de entrada y salida.
• Cuantas capas ocultas y unidades en cada capa oculta.
· · ·
2. lnic1alizar todos los pesos y sesgos a valores aIea t O rios pequenos por ejemplo E [-11]
, Yel
valor den.
3. Repetir hasta que el criteria de terminacion sea satisfecho.
• Presentar un ejemplo de entrenamiento y pasarlo par la red (forwa rd pass).
• Calcular la salida actual y el error en cada salida.
• Adaptar los pesos empezando por la capa de salida ytrabajar hacia atras (backwardpass).
En donde se tiene:
8.=
I
(8.-
I
0
1
). o . {1- O} ➔
I I
Para cad a unidad de salida de la neurona i
En donde para cada unidad oculta j, y la suma sabre todos los nodos i en la capa anterior j, Oi
son las salidas obtenidas y 6 i son las salidas deseadas.
Es necesario proponer una funcion f sigmoide (la funci6n de activaci6n en el caso del
perceptron simple), que sea diferenciable. La funci6n sigmoide es una de las funciones de
transferencia mas utilizadas. Produce salidas continuas y proporcionales al nivel de activaci6n
de la neurona dentro del rango [0,1); sus niveles de saturaci6n son 0 y 1, por lo que su salida
maxima sera 1 y la mfnima 0. Cuando el nivel de activaci6n supere al umbral de saturaci6n
maxima la salida seguira siendo 1 y cuando el nivel de activaci6n sea inferior al umbra! de
saturaci6n mfnimo la salida seguira siendo 0. Es comun to mar la funci6n sigmoide exponencial
denotada por:
o la entidad :
f{x) = X
Capftulo 2: T~lcas y apllcadOn de la rntnerfa de datos
1
Si f(x)=--
1 + e-•
Usualmente se utilizan criterios de para para este tipo de metodos, las cuales son :
Pr:bblema
• ldentificar patrones de compra de los clientes
• Buscar asociaciones entre clientes y caracterfsticas demograficas
Comercio y marketing
• Predecir respuesta a campanas de e-mailing
• Analizar la canast~ de compra
B n
i:,t(mco-,
Fuente: el autor.
Hay muchas otras areas en las que interviene hoy en dfa la minerfa de datos. Para
saber mas acerca de este asunto en particular, se puede consultar un documento
ubicado en la siguiente direcci6n electr6nica : <http://www.it.uc3m.es/jvillena/ irc/
practicas/06-07/22.pdf>. En este archivo subido a internet hay informaci6n sobre otros
ejemplos interesantes como las siguientes:
6 .4 Investigaci6n cspacial
6.4.1 Proyccto SKYCAT
Durante seis af1os, el Second Palomar Observatory Sky Survey (POSS-II) coleccion6 tres
terabytes de imagenes que contenfan aproximadamente dos millones de objetos en
el cielo. Tres mil fotograftas fueron digitalizadas a una resoluci6n de 16 bits par pixel
con 23040 x 23040 pfxeles por Imagen. El objetivo era formar un catalogo de todos
esos objetos. El sist_ema Sky l~1age Cataloguing and Analysis Tool (SKYCAT) se basa en
tecnicas de agrupac16n (clustenng) y arboles de decisi6n para poder clasifica r los objetos
en estrellas, planetas, sisternas, galaxias, etc., con una alta confiabilidad. Los resu ltados
han ayudado a l~s ~str6nom_os a d~scubrir dieciseis nuevos cu asares (sef'iales radiales
lejanas) con comm,ento hac1a el roJo que las lncluye entre lo b' ,. . del
. . s o Jetos mds 1e1ano 5
universe y, por cons1gulente, mas antiguos. Los cua ares son fuent d X diaci6n
· 'bl t b',/.. • f . es e rayos , ra
ultravioleta, luz v1s1 e Y am lt'n in r arro1a; en otras palabra .. d d' '6n de
. · s, 1a emIsI6n e ra IacI
105 cuasares resulta inten a en todo el espectro lectr ,/.. . son
. .. omagno::t1co. Estes cuasares
dlffciles de encontra r y P rm1ten saber mas acerca de r .
Ios or genes del universe.
[ ... J
6.6 Textos WEB MINING
6.6.1 Medicina
Estas claves sugieren que la deficiencia de magnesia podria representar un papel e alg nos
tipos de migraf\a, una hip6tesis que no existia en la literatura y que Swanson encontro e<fi e
esas ligas. De acuerdo con Swanson, estudios posteriores han probado experimentalme te e.sta
hip6tesis obtenida por text mining con buenos resultados.
Tom ado de: Virseida, F. & Roman, J., s.f. Disponible en: <http://www.it.uc3m.esfJvillena/irc/practic.as/~
Educational Data Mining is an emerging discipline, concerned with developing me_thods for
exploring the unique types of data that come from educational settings,_and using those
methods to better understand students, and the settings which they learn ,n.
[La minerfa de datos en educaci6n es una disciplina emergente, preocupada por el desar~ollo
de metodos para explorar los tipos unicos de datos que provienen de los centros educanvos,
institutes, universidades, y el uso de esos metodos para entender mejor a los estud1antes l
m stan ar '
p rtunities
·a er in re&SJ.
r en ren 3 .]
Collects a rl e EOUCAllONAl.
INF.stSTEMS
ITS. AEt1, TU,. tMS
EDUCAT. DATA
EDUCATORS r-----.L
ea ers,
1,>1b.
:-t I t' I ( ,
f ,, , .::.::- ," r, 1
,
', ·t, t.
Figura .1
Fuente: <I · •1i1
Ahora se van a revisar algunas investigacianes de minerfa de datas que se han realizado
en el campo de la educaci6n. Para ella, se tamar;l coma eje tem;itica las Ultimas
investigaciones hechas sabre deserci6n estudiantil en institucianes de educaci6n
superior. De este grupo se dar;l mas impartancia a las investigacianes que se hayan
llevado a
arboles decadecisi6n).
bo mediante el uso de t<ecnicas de minerfa de datas (redes neuronales y
f';,;'; _._ !
Desalpd6n de ayuda
Atrlbuto Descrfpd6n de indlc:adores
'
flnandera de rendlmiento
FinAidAwardType_G Manto de subvenciones
de ayuda financiera ACT_COMP ACT puntaje integral (antiguo)
lmporte de ayuda.
FinAidAwardType W ACTl ENGL ACT puntaje de Ingles (nuevo)
financiera de renunc1a
ACT puntaje de
FinAidDEPENDENCY Estado de dependencia ACTl MATH
Matematica (nuevo)
..... , ~
.. ,...~.,., ...
tlMnclerl
Tlpo de formuliHIO
Mrlbuto
HS_PERCE NT
I
Ducrlpcl6n d1 lndlcado"'
PN
d1 rtndlmltnto '
nlll de la ('. ,U(-:;-
FlnAldPARENT TAX ' unclarl,1
lmpuesto de los padres
' ( 'II 1.1 (",LI H•l(I
p0°,I CIOII ---
HS_RANK
FinAldSPOUSE_WAG Salarios del conyuge
HS_SIZE
~ccu1 H lr1r l<1
Tamoi'\o de r.las dc- lo --
FlnAldSTUDENT_AG
FinAldSTUDENT_HO
lngreso bruto de los estudlantes
MATH12
nivcl I 10 d(' M,11,•111,1t1l.1
lnscrit o 0n r•l t tII ,(l Ii'
- -
niv I 1. 2 ci(' \\,\,l\l'll1,\lll\1
\n ~c1itu t'l l l'i 1111,,llk
MATH14
nlvl'I \ '1 d , l\l.11 ,•11 1,11 n-' ...
. - I · 1lll''I
l S rt• [rlu< .1t 11',n l 1"•I1 ''..---
j
Para el estudio se aplicaron tecnicas coma one-R, C4.5, AD trees, redes bayesinas, bayes networks y radial biasnetworks. De todos
ellos, fueron usados para el experimento los arboles de decision (vease la figura 2.2) y las redes bayesianas, con lo cual se obtuvo
una precision del 90 %.
- 1
0ptimista I
17% $1,100,000.00
$ 2,100,000.00
'
$ 1,033,333.33
lgual que
true - - 4
lngresos Mas probable 67% $50,000.00
la inversion $ 950,000.00
$ 1,000,000.00
1
Pesimista 17% $ 700,000.00
$ 300,000.00
Inversion ~ $33,333.33
35%
Optimista 0% $ 550,000.00
$ 260,000.00
false
Otro
$ 800,000.00
lngresos
< Pesimista
65%
$ 260,000.00
0% $ 540,000.00
false
Yuna 0%
$ 0.00
Terenzini&
Esrucfio 3 518 428 81.63 iU ce- {U55 5,_
I : ~- ~-LY' - , Jb:>l:?
I-0-
~, - 7·::-•~ ~: .3,3--!- - :if' ", :r: ,:,t '
Dey & Astin (1993) 947 1s::: :&oo ll.:3.:' L \ tl.323
s. \ - ~~i:,-
Proba~ ~ o,a,o,WS
Murtaugh et al. (1999) 8667 5200 60
~~~3~
s ~ S..,~t'\~ ,
I
~i~
Bresciani & Carson
(2002)
3535 3:~1 SS.3f\ :;_: ~'::' .."' ~'.::
I
~- ::- ~~:-.l.'"'1-- (..~.. !:---.~-;
Cualquie r de-sen:ion t
I
no solo d e pnmer
ai\,:i- preos1ones
G.lynn et o l. l2003)
sabre la ba5e
3 2 .:.1 l~':l2 .1-i L'S :-,.,_,' ---· :,''. _'. : ,· -- ~
·\.
I
:- "..-.~"'·:~·1..,' 1~ l'¥ :::-,.."l.- >
\ de k b jat;:is di.:
ent ren.ln"en t o \ I I I
..,,_,
-- ........
ll'UDO
1111,nld•· ......... 11■ ••••p1111II H e- ■1 11 .. 11 t . .,
111
()
P1 a, ;i ,- y
IW , 1 LWi I
2 X i 4xl I t J -►
4x2 nl
4x l
-;:- 3x4
4xl 3 )( 1
4
____ _ ___J _)
Variable
ID Sexo Estado
M1t-OceJena
1 ... 3
Stat-Ocefena
1 ...3
JuE•Otejena
... 2
% de respuesta
80 - i -- --.1.-
10 20 30 40 so 60 70 80 90 100
Nombre de tecnlcas
■ Regresion ■ Arbo! de decision
■ Regresion - 2 ■ Linea ba se
■ Redes
■ Redes - 2
~ I
0 te l i IO, 1, 2, 31
~
- - -~ - -- e3
,,.
"
Categorfa reladonada
Atributo Rango de valores
con la literatura
Dauipci6w
Atrtbutos 1lpo
Numero de cursos de
Nominal {n/a, 0,1,2}
matematicas VWO
Promedio de matematica
Nominal AsVWO mean
vwo
Educaci6n HO Nominal {n/a, electrico, tecnico, o ro
-
Ano HO Nominal Igual categoria VWO afio
-
Grado HO Nominal As VWO mean
entre las cuales se encuentran las redes neuronales, la regresi6n logf · a, el•:i.:<l--·
discriminante y el modelo de ecuaciones estructurales. En los modelos e ... r:}
propuestas se consideraron diferentes conjuntos de datos que an es e ., q•.-=
71 variables de entrada, entre ellos, variables de factores cognitivos o
que pueden ser revisados en la tabla 2.9.
C I I Ca 2: T«nicas y ~ A.lcl6a da la 1R1ner1a de datos
Equipo
otivacio
El experimento fue hecho con 1508 estudiantes de los cuales 289 eran mujeres y
1219 eran hombres. Los resultados del experimento de los cinco modelos propuestos
demostraron que el metodo de red neuronal produce los mejores resultados de
predicci6n con respecto a los otros tres. De esa manera, se consigui6 una precision
de 71.9 % en el modelo C que usaba variables cognitivas y no cognitivas.
debil, media,
GPA entre el terml-term4 buena, mejar, debil =GPA < 1.6
GPA1-GPA4 {dentro del ana academica media= GPA 1.6 - 1.99
2008- 2009) bueno = GPA 2.0 - 2.5
mejor =GPA> 2.5
GPAX de la educaci6n
GPAX del colegio numero
secundaria
{1, 2, 3} = Ciencia + Matematica
Programa del Programa de estudio en la 2 = Lenguaje + Matematica
Colegio educaci6nsecundaria 3 = otro.
'11111 111 •Ill,_
1ano, grande}
t\o I co 10
bandono
{ . 2. 3, .5.6. o }
Tobia 2.11 Comparaci6n de los resultados de dos algoritmos de clasificador sabre todos las factares
TN Rate 0.843
0.066
0.831
0.033
0.864
0.033
0.872
--
FNRate 0.851 0.849 0.851 0.821
-----
Fuente: Yathongchai et al. (2003).
00
XI
2. Existen muches metodos de minerfa de datos. En este capftulo se estudian los arboles
de decision y las redes neuronales por ser los mas usados para la solucion de problemas
de clasificacion. El arbol de decision permite encontrar la variable independiente que
puede hacer que, de manera sucesiva, una decision hecha a partir de los datos divida
el grupo original en pares de subgrupos en la variable dependiente. Es importante
tener en cuenta que, a diferencia de la regresi6n que devuelve un subconjunto de las
variables, los arboles de clasificaci6n pueden clasificar los factores que afectan a la
tasa de retenci6n .
.
. n I que respec a
t a las redes neuronales, estas . ,
tratan de imitar a las
. neu, 0,
inten:: ne tadas que hay en los cerebros de los an,ma 1es con el fin de hacer 13;
ale ri tm ea ca pa z de realizar el aprendizaje complejo para la extracci6n de Paqt u~ .1
B ' Dr1n,
te tar t ndencia s. ,)
Problema
• ldentificar patrones de comp ra de los cli entes
• Buscar asociaciones entre client es y caract eris i cas demoorahca:,
C merc:io v marketing
• Predecir respuesta a campanas de e-mailing
• Analizar de la canasta de compra
,,.
0 ri,
< p://v '1 uc3m ; · I d nt0
' eria de d . es Jv1 lena/ irc/practicas/06-07/22 .pdf S" p Uf' iJC' ,
a OS. lo misrn O , //a 1c ive ,r.s
ade as es pos1ble en la direcc1on <h
· • a ase de da·ot s con a cual hacer pruebas.
1
/
Capftulo 2: Tttnl a Y apU a 160 d 1 min "' d d to
Area de aplicad6n
Problama
• Ana l1zar los procedirn1 ent s 111e'd·1co O I1
·c-1ta1jo
J c I,I untJIn 'ntc
Seguros y salud • Predecir que cl iente ompran nueva µoli J
privada
• ldentifica r patrones de comport,1mient pJra cli nt 11 ri -
• ldentifica r coinporta mi nt fr udul ~nt
DISCOVERED
f - - -~ LEARNERS
EDUCATORS KNOWLEDGE
Pupils,
Teachers, Descriptive (process)
students,
study advisers, models, {learning) professionals,
directors of patterns, outliers,
patients
education, (perform ance)
education researchers predictions, advices and
recommendations
s
Contenido
3. SPSS Clementine
3.1.1 Sector publico
3.1.2 CR
3.1.3 Web mining
3.1.4 Desarrollo de farmacos
Capft:ulo 3: PresentaclOn general de SPSS Clementine
La gran ventaja que implica el uso de Clementine es que, al contrario de las metodos
estadfsticos mas tradicionales, no necesariamente se tiene que saber lo que se busca.
Esto pasa por el hecho de que con este programa el usuario puede explorar sus datos,
encajando diferentes modelos e investigando diferentes relaciones, hasta por fin
encontrar alguna informaci6n que sea util.
500,000
QJ 400,000
::,
ro
>
.§ 300,000
ro
u
-0
(1.1 200,000
_1;;
-0
(1.1
....
a.. 100,000
Top 1%
Big 5%
Medium 20%
Small 80%
Inactive
00
2, 00
,0()0
cg 2,000 SQQ
u
l 500 0
0 100 200 300 400
Order amount
1.000
500
0
5 10 15 20 25
Visi t actions
6.
15 D,,,
~
10
5 10 15 20
0
Genes_Class
Objetivos
En este capftulo el lector conocera las principa les partes que conforman
el entorno del software SPSS Clementine. A partir de esto, podra trabaj ar
y desarrollar proyectos en este programa, de manera facil y sencilla.
Tambien conocera los nodos mas usados que se encuentran en cada
una de las categorfas y subcategorias, los cuales le permitiran armar el
proyecto como si se tratara de construir un fl ujograma.
Contenido
4.1 Elementos de la interfaz de SPSS Clementine
4.1.1 Clementine Stream Canvas
4.1.2 Nodos Palette
4.1.3 Clementine Managers
4.1.4 Clementine Proyects
4.1 Categorfas de SPSS Clementine
4.2.1 Categoria Source
4.2.2 Categorfa Record Ops
4.2.3 Categoria Field Ops
4.2.4 Categorfa Output
4 .2.5 Categorfa Graphs
4.2.6 Categoria Modeling
4.2.7 Categorfa Export
/
apitulo 4: Int r fa l categoria de PS Clementine
69
CR18P-011 Claosea
e ~11Jn11V1<1proj1C1)
""' IMllett u...a-,g
W D11.a Understandmg
~ Dltl PtOpirwt!Dn
i.. 110<11tng
;or E,aturlion
~ DtP'D!fflfnl
Ahora se va a describir cada una de las partes de esta maravillosa herramienta. Entre
ellas se encuentra:
CRISP-OM C1HSIS
IWldp~
....... ta. . . . • •
DIII\.\Nlll..,Mllig
DIii PrlplfllOn
!Ioele~
EwludOn
011110!ffl8111
la\ lf.i\
@ ~ @@@I®® _ I~~~.!~-··---~_,.. ~
_ . . , . . ,®
- .,..... - ....... ,.._.- - - - - - - - - - -- ►
- TOIIB/8019
7011 18111B
~ dru plot
:,•. drugl am
~ fta11d
• ~. drugr port
1-- ~ •- -· .. - ., --- -~-"'7
◄ ►
I m •11 II • /I
rd
om v I lmv tu
tin
rn of I 1rn 1ft
tr ams in th c nv
outputs
Drug
ol1lmv tu
...
l
\
t I
Drug i
►
◄
1
Fi ura 4. r' tJ f\, Moci
/'J. D ta mining - Mtnerfa de datos
*''
ISP-OM Clines
- --
(uni d Plll!IC1)
ORUOln IIIISINss UrldlNtlld,g
-> 0 I Undtll
Oa Prepa"' on
WOdehng
Evalul n
Oep1oymtn1
Patient Records
fm,rllea e Sourcts • Rtco'm Ops - • Fleld Ops j, Ortphs • Modeling • Database Modllng ■ Outilut ■ EJP0<1
701118111MB
La p stZJn Cl (hgur
p, opor ,on,1 un i form 1 cl ' or 1 m11ar
I tr bJI n I mcnt1n, d mc1n ra
dl ori ,1 y s gun lo tipos de obj tos
qu er an. f st pun lo de vista es
ut1I p r tomar inv nt rio de los datos,
tr oms y mod los .
Dtu gm
T 1hles, Graphs & Reports
~ Dlslrtbuhon of name.cou
"-' Web or (region malncrop clalmtype
If;, Paller1I Records (8 fields, 200 reco
Other
D Oat considerations doc
◄ ►
a. Sources: en esta categorfa se encuentran todos los nodos que permitiran conectar con
los datos como archives de texto, archivos de Excel, archivos de Microsoft Access, etc.
b. Record Ops: en esta categorfa se encuentran todos los nodos que permitiran
seleccionar y manipular los datos de los registros de las fuentes conectadas.
fJ Favorites • Sources 11e Record Ops 11 • Field Ops 1 A Graphs 1• Modeling I ■ Output ■ Export
@@@@@ ®®®®
Seleot S•mple B•l•noe Aggreg•I• RFM Agg1eg•le Sort M11ge Append Distinct
c. Field Ops: en esta categorfa se encuentran todos los nodes que permitiran manipular
las columnas (campos).
e Modollng ■ Output ■ E'<Jlon
r, urJ . z r,1ph
.Mod lin n esta c t god s po lbl obs rv rt d lo r o I ln'd lll I-HI rl , 11 IAI
P S Cl m ntin
-
f. Output: en esta categorfa estan lncluldos todos los n dos qt~ v yudi.11 a 1IJI IIHI
1 ,
los resultados de los modelos construidos, asf coma ri h, .r I ,n/11,1•,d I J,dr1I1,~y
algunas auditorias a los datos.
g. Export: en esta categorfa los nodos van a permltir podr>r xporl , r I ,, do111i•. 1ililf'111d11~
hacia otras fuentes de datos.
fJlllfllil L 111111
Una vez definidas las categorfas, ahora s v pa,, r , d '',er IIJII lo•. 111 " 1, i . 111,.. 11 ,.1il1 1•. 1•1 1
cada una de las categorfas del SPSS Cl m _ntin .
Nodo O rip,16n
Elnodod b.,sr•dP da os~F-pur-rfo1i1111,11r,,,,r ,1111q,1,r 11-1 1 rl,1 ,, rl, 1111 1\/111,,t ill• ii
®
,11
paquet !> mr>dnn f: OOBr (OfJF- fl duu1 /Jo sp r 1 1 1 '" 1 , fl
Ser , -r, DBl. Orr1cli• 'I oir ,'. "', ,,, IVII VJ. 11,, 111,, "' 1i, 1
/
l ,lpilulu l: lnh•1l.1 ✓ \ l ,lh'~lll 1.,s tit• SPSS 1 'h,11w11thw I',
Nodo D scrlpdon
[I 11 tfo ·r,s h.'l' I ~ d,,t )s dl'I IL ,m;-itl) dt' ,11d11vo \,\'v utili ..1do f.1(>1 \P5'i .1~1 co111o
,lr htv s d' cich ll.11 lid s 1..'n l ll'Dlt'ntmt' qm t,1mb1t n ut1iil t'll t'l 1111 mo !or n1<1to.
U nod"' E 'I Imp rt 11np rt i d..ito!-o dt sdt' ru,1lqu1l'1 vt>rstL~ll dl' M1t 10 oil I c1•I. No •s
n t: s,111,1 un 1 TUt'ntt' de ct lt "'· OflR(
-
®
[I nodo Us r Import pr opo, ·1011,1 un,1 rn,Hlt'r ,1 t,1c1I dt' tr t',ll d,1tns, y,1 :,t\1 s1nlt'l1c,1 cksdt'
4 cero o lill'di,rnt la ,1lll't ,11.. 1on dt los d,1tos 0 t5lt'fllt'~. Lsto t's ut1I, po, L'Jt'rnplo, rn,rndo
--------
@)
se de ·1.:J crc-.11 un conjunto dl' d,1to. de pruL'b I p,11,1 1'1 modl•l,1do
El n dl) Ent 'rp, i e Vtt w 1t',l un 1 l'011t' 11m con un f't t'tiit tivc I ntl'r p1 l!-<t' R1.?pt1 1tmy, qui'
it, Pt rmit1: I 0r d,lt s de E.ntu pr I L' View 011 u11.1 ,r,, am v t rnp,1qu ,1,1r un rno1h>lo 1•n un
scenari qut.: pufde. l'r ,1 cedtLfo dt>s it ,1 It'PO ttL, i por otros usu,1rios
Fuente: el autor.
4.2.2 at oria R c rd p
Tobia .J,_ Nodos d In catcgorla Rl' ord Op·
Nodo D scripcion
El nodo Selec 1onJr pe, mitt' '5CO ,L'I o dt'Sl 11 t,11 un sub on1u11t tk 11' ,1st ro, dl•I tlujo
de datos, ba·ado n una cond1r1on ' Pt'Cthc,1 l'or l'll'mplo, l's Pt''itblc s 'lctc1on,1r lo
r gi tro. qu pt.:1 lt'llt' ,rn :i tlfl,l ll' 10n cit• Vt 111,1 l'n pJ111 ul,11.
El nodo Mwstre,1r selccc1or1,1 un ·ubconiunto dt• It' btro, Un.is V,1f ll'd,ldL'" de tipos
de muestras son comp;:it1bl ·• tncluyl,ndo t'Slr,1t1h ,1do, .1p,r upJdo, y mut str,1<. no
aleatonas ( structur;-idos). El mueslrt'O PUt'dt' 1..'1 ut1I p,11,1 nw1or,11 l'I rt'nd1m1 •ntoy p,H,1
seleccionar grupos ct' 10 1 t1 o.:. r1'l,K1on,llfo" o tr ,1ns,1eriont's p,1r 1 •I ,rn.ilis1s,
r I nodo Equilibr ,H t:01 rI I' los dt'St'qu1hb1 il1s t'n un rtmjunto dt• d,110., y ,11u l,1 l,1 p1 opt11 1011
d rt'gist , as 'n los qUt' un,1 t: ndinon i's lit rd,1dt•1,1 ,1 p.ir 11r dt• t111 l,H:llll t' i t'c 111 1do
El nodo Agrt'ij,ll lt'l mµl,11,1 un,1 St'Cllt'llCl,l dt• It' tstros dt• l'fllr,1d,1 ton r1•g1'>trm de s,1hd,1
Jgr Rados y rL'Sumidos.
[I nodo Ordl'n,11 01dt'Jl,l lt'Ki,tr11 1 11 pl,111 ,1sc 1•11d1•11t1 t' d1•~c 1 r1th 11!1• i 11 ltm11on cit' lo
1
Fl nodo f-undil tom.i v,H ins , 1'Rhtr m dt' ,•ntr ,1d,1 y < r1',I llfl 11't1i~t ro d1• .,,,ltd,1 u111c ,1 ql1<'
rontll'IW todo · n ,1lt1t11ws cit• los l.llllPl''> cit• 1•11tr,1d,1 I., ut1I p,11,1 I., lu"t)fl dt• d,110., di'
difpicnll''- fllt'tllt'S torno lus d,ll s dt• lo, tlit'llh" tnh•rnos y ltl\ d.1tns d1•rnogr.1hrlh
fl nodo 1) 1.,1 11 1!\Ulf 1•1im1n.1 11•~i tro, d11plir,1dt1, y1 w;i 1prob.mdo ,·I prrm, r tt'Rt•t11
dbtrnhi ,11 ,tr,·11111 dt• rl,1ll1 1 dt• 1,11 t,mdo t•I p, 1t111•1 rt•~1,tr11 y p.1'>.mdo r 11,1lq1111•1
duplit .id ,1 l.1 1ut,, dt• d,1111. t'fl lug,11
Fuente: 11 1tlUIOI
l n~ l i l l l l
ta/)/11 4 lo J d, 1.,
nIun10 nn hin,1 do· c) rn,h rnod"lo·, p,ir tJ obtr•n ,r pron6 cos mas ecisos ae
1 pul d1 11 l)b\t'!H r d c u,1lqu11 •r modelo.
®
@
Fuente: el autor.
4.2.4 at
Nodo
·b r en
mbicn puedcn escn 1
0
ionc:1r las vdl r dt' dalo5
phoo 1£'mentine 77
D scrlpcl6n
b 1nd1 a l,1 intensidad de las relac,ones entre los valores de dos o mas campos
10,h Ir o ll r hco muestra las cone tones utilizando diferentes tipos de lineas para
11 1 , I fu r a dl' cone ,on Puede utiltzar un nodo Web, por ejemplo, para explorar la
rt I , n 111tr I cornpra de diversos articulos en un sitio de comercio electr6nico o un
d, L nta tr ad1c1onal.
P r1 111p p , n11tc vcr uno o mcis graficos de senes sobre el tiempo. Las senes
nu b I nl! 11 r w,lotL'S nurnencos y se supone que trabaJan baJo el supuesto
Tf,.,, r1,1 l lll I J lo p r 1odos de t1ernpo 5ean uniformes
f nl
4 2.6 at rt,l tnd ·hn 1
Nodo
o rip I n
I d1' d1'll',l()fl ljllt p1 1 (lllllf' p11•tl1•tl1 ll 11,1•,1111 I
di •I\
1111 111 .1 p 11111 t llll"• lt'l lll',IVcl', p,11,1 d1v1tl11 111•, 11 ,1l',lru
111111111 11 rn lu I 1•, I11111tI11 !,1•, 1•11 1 .1d.1 fhl o y 1, 111 I
l lft)I
dt• In 1,1•, h c•ll 1•I lllHhi tOtl1",11111111t , 11
,1 un,1
El nodo Factor/PCA prov e pot nt t cnicas d r ducc1on dl' di"ll oc; p,11 .i rPch1c11 I~
compl jidad de los datos. El n lisis d cornpon nt s ptln 1p,11t, (P A) 1 tH LIL'nt,a la\
combinac,ones lineales de las campos d nt, ada qu hue n rl mt ior t,, b, Jo dt' captura,
la varianza en todo el conjunto de campo , n I cu.:il los compon nt , son 01 top,onal~s
(perpendiculares) entre si.
El nodo means agrupa el conjunto d d to n , upo d1 l1nto~ (o lu,tm's) ll
me ado define un numero fijo de conglom rados, d form, It r<1t1v,1 .1 IgIi.1 rt->glstros
a los conglomerados y ajusta lo centres d los conglom r.icios hJ-.l I q1J1' u11 I111rvo
refinamiento ya no pu dam jorar el modclo. En lug rd trata1 d µ1t'dt'111 w, 11•~11I1ado,
K-means utiliza un proceso conocido coma «apr ndizaj no supc, v1,;.1do>1 1 11.1 c!L-mibrn
patrones en el conjunto de campos de entrada.
El nodo Regla de inducci6n (GRI) encuentra reglas de asociaci6n n los d 1tos Po, rwmplo,
las clientes que compran maquinas de afeitar y locl6n p ra d spu · d I ,1 fcit,1do t,11nll16n
son propensos a comprar crema de afeitar. GRI extrae reglas con I cont nido 1nfo1 ni,1uvo
mas alto en base a un fndice que toma tanto la gencralidad (sopor t ) y la p1Pc1~ion
(confianza) de reglas en cuenta. GRI puede manejar entradas nu mer i ,1 y 1,1t1'1v1rIc,11,
pero el objetivo debe ser categ6rico.
u nte: I au
Nodo Descripci6n
E odo de e portac16n de base de da;:os escribe datos en un oriP,en de bar;c de da ,
relac1onal cornpa ble con ODBC (conex16n de base de daws ab _a) Cor fir rJr.
escnbir n una fuente de datos ODBC, dicha fuente debe ex1s r ~ Ere· p rr ho ,J,.
escn ura para el.
Este nodo perrn,ce la salida de arch1vos pianos de datos a un arcr 10 d~ tez o dPlim1t;,<Jo
Es ut1I para la exportac16n de datos que pueden ser leidos par otro<: anali:1•, o vjr ,.,
prograrna de hoJa de calculo.
Este nodo indica los datos de salidas del nodo de exportaci6n SPSS ,., forr a o SPS' •,, 1
Los archivos sav pueden ser leidos por diferentes productos de Sf'SS. E:-.i.e 1;:-:, tar b f. ·I
ormato utilizado para los archivos cache en Clementine.
Este es el nodo de exportac16n SAS de datos en forrnato SAS para ser leido c-r1 ,., .. frj rn;, r;
o nor ur prograrna compatible con este. Hay trF>s forrnatos de arch1vo ':,/. q JP F·'; j 1
d1spornbles en Cler11entine SAS para Windows/OS 2, SAS para U JI/. v SIS ,,-r~ior 7/2
Este nodo representa las datos de sal1da del nodo d~ e1portac16r rru--1 er fr,rm;;t0
Microsoft Excel ( xis) Opcionalmente, se lo puede elegir para r,<JnPr ,,n rr ;,rd;,
autornaticamente Excel y abnr el arch1vo exportado cuando :-.e ejecute ,~ nodo.
Fu nte: el au or.
I II dI 'i I I If 1I I I .• {) ftWtltl' ,I''/ 1,,rn,•ri1lr1< '/HI <·I < li•rr ' n 1r ,. '} r, 'lff ' ,,i /,-1
' ( jl
.i 1,11111 II ·I c ,,,1oi1tr,J:1 •,d,-flt1Jv,,l,J',r,rJ<fo-;IJ, l,-t1 ,.,., lv,r.,,j:.,:
1111,· 111 1111llt d1•'i,lllfJ di ( P1 J'/ • I •fa
bj ttvo
I 11 t' ,l, t ,111 lull l'I l, tll11 .iµ, n j 'rd I · p
1 d in talacion de SPSS
t h·111 111i1w, 111 qu,, It• ,1 ud ..11 1 n t 11 , JI un problema al momenta
1
dt· l'it'L llldl •-,tt, p, w~, dl11J y I l'dl n I pr ct d min rfa de datos.
l\n" d ,,;p 'idr u 1lqui ,, dud..i J , 1 d la in talaci · n puede revisar la
1111011111H ll 11 111 ,1 i.1 pt11 I Id' qUt' f rn1a part d I mat rial digital
qll ' d llllllhlll I d ' l' lib, 1 y qll 11 u ntra n la pa ina w b de la
I dltl111111 Mll I 1.
nt nld
1 I 111•.t,111111111 rh•I 11111~1.111111 I'~ t·1t,1m11tim:
I t l\p;p•. pi11 ,, l,1 l1P,l.1l.it ll·111 dt•I pn 1g1,nn,1
11 ,
1
,1' 1
, l h•111t 1 11tl1w
p C em ntine 3
,
ntine
m n in 12.0
Ins.till! Cl
In 11
In 11.l on ln1tructlon1
• CD~ROM
luego e la ins alacion, se pod ran realizar con posterioridad algunos ejemplos para poner
en practica el uso de este software y aprender todo lo concerniente a sus herramientas,
a pa ·r del abordaje de algunas situaciones reales.
lipo Tamaiio
fecl\a de modifica ...
Carpeta de archivos
02/09/2012 9-.28
Carpeta de archivos
02/09/2012 9:28
Carpeta de archivos
02)09/2012 9:28
Carpeta de archivos
02/09/2012 9:28
Carprla de archivos
02/09/2012 9:28
Carpeta de archlVOS
02)09/2012 9:28
Carpeta de nrchivos
o2J09/2012 9:28 2KB
Inlormac16n sabre...
01/03/2008 8:50 94 KB
Archivo PDF
01/03/ 2008 8:50 616 KB
Aplteaci6n
'3()/].l/2007 9,41
2. continuaci6n, se desplegara la ventana de instalaci6n (vease la figu ra iguien et
vez que esta aparezca, haga clic en la opci6n Install Clementine.
Clementine®12.0
lnstaJI Clem•~
q
Install Python
Exit
.0
l
Pl r d the following hctn
This software is protected by both United states copyright law and international
lnstallShteld - - - - - - - - - - - -- - -- - -- - - -- --
< Back Nex
Destination Folder
Gide Next to install to this folder, or did< Change tD i'lsta'I tD a afferent fader.
Please wait while the InstallShield Wizard installs SPSS Clementine 12. o. This
may take several minutes.
Stab.Js:
.:;-;;_::-::--=~:::--=-=-=~;;_- - - - - - - - - ~ - - - - --
Instal1Sh1eld - - - - - - - - - - - - - - - - - - - - - -
tJUlul ',; l11 ,I.ii, c 1011 cl, ,J'' ', l1•t11(•11ll1w 10
I want to:
Trial License
To enable a temporary trial period, click the browse button and select trial.txt
from your product's installation folder.
The trial license period starts the first time you use the software and lasts for 14
days, after which the software will not run . Please follow the In stallation
Instructions to permanently license the product as soon as possible.
tt.elp
10. Llegado a este punto, busque la ruta que se encuentra en la figura siguiente (C:\Program
Files\SPSSlnc\Clementine12.0\bin\trial.txt) y haga clic en Next (siguiente).
To enable a temporary trial period, click the browse button and select tnal txt
from your product's installation folder.
The trial licen~e period starts the first time you use the software and lasts for 14
days, after
. which the software. will not run · Please f o11 ow th e In stall at1on
Instructions to permanently license the product a
s soon as possible
89
Ii
n Fini
l n Ii: r) e 1 ' en na de instalaet6n .
12. Una vez conclu ida esta acci6n, ejecute el soft\ are SPSS Cleme ·ne. Para ello, siga I s
siguientes pasos: vaya a lnicio, escoja Todos las progra mas, seleccione la carpe ..a SPSS
Inc, y finalmente haga cl ic en Clementine 12.0.
SharePoint
Skype
SPSS Inc
Clementine 12.0
Clementine 12.0
Demos
Documelltati n
.. License uthorization izard
.. SPSS License Utff
Se d splegara una ventana (vease la figura siguiente) en la cual podra desarrollar
cualquier tipo de proyecto de minerfa de datos.
13. Ahora bien, si desea saber c6mo funciona el programa, haga clic en la opci6n Open
(abrir) y luego seleccione la carpeta Demos, tal como se muestra en la figura .
D v Open
Buscar en Clement1ne12 o
Accesslblilty
bin
component
conftg
Cl Demos
o{)
ext
Help
Jre
lib
licenses
Modi
acrlpts
-
t 1)11 J II I 11 I ,, , I•,, ,i
14 ntr t -;L1 ,Hpt l.1, .il11,1l.1 r .11111•1.1 I I.P,,1111. 11,111 l/t,ul1jl1 /' ,, 1,jd, 1,1,1 'I' 11,1111,,, I
t 11. b I k1 uh• I Pl 1111•.i1h1 11H1tl11, •,1 o1•A Ill ,!1 •, c• 1, 111w,l1 11 11 , o 1,11, • I· 1 , ;11 1 , ..
·r mL i 11 t I p1 ot1,1 .irq,1 ,
BAS T81n
f Ml 11 j / /
1t11 1rs I f1111
)] 11111/
11 fl Ids
1 u n , ningun tipo de problema al o e .. o e esa
u 10n I software SPSS Clemen ne, se ·e e
u pasos al momenta de su ins alaci6 . E es e ca 1
In talar PSS Clementine se abre la ven a a e i s alac o
, ura el tlpo de licenci que se va a usar. Luego, se ace a s .. e
4
h ncia y se sp c1ftca la di recci6n n donde se de ea ins ala e ~e - ., ,. r
Contenido
0
6.1 Caso n. 1: Predicci6n de juego de tenis (arboles de decision)
0
6.2 Caso n. 2: Predicci6n de planta iris
0
6.3 Caso n. 3: Predicci6n de farmacos
0
6.4 Caso n. 4: Problemas de cluster (caso empleados Memolum Web)
0
6.5 Caso n. 5: Agrupamientos en relaci6n a las ventas
0
6.6 Caso n. 6: Datos err6neos y faltantes (caso empleados Memolum Web)
0
6.7 Caso n. 7: Obtener y transformar datos a traves de ODBC (conexi6n de base de
datos abierta)
0
6.8 Caso n. 8: Catalog_forecast (series de tiempo)
6.9 Caso n. 9: Computer hardware data set
0
6.11 Caso n. 11: Validaci6n del modelo Drug con datos nuevos
0
En este apartado se explican veinte casos vinculados a la minerfa de dalos, los cual s
consisten en ejemplos que implican el uso de redes neuronales, arboles de d cis16n,
clustering, series de tiempo, etc. Tambien se van air explicando, al mismo tiempo yen
detalle, c6mo se usan cada uno de los nodos en la resoluci6n de los casos propuestos
en este libro para que asf el lector pueda entender este asunto de man era sencilla
y, despues, ap liqu e este conocimiento en el abordaje de problemas vincul ados a
cualqu ie r area o rubro. Cabe anotar que la resoluci6n de cada uno de los siguientes
ejercicios implica el uso de una serie de recursos en lfnea presentes en la pagina web de
la Editorial Macro. Asf que, para entender algunas de las explicaciones, es necesario que
el lector siga las instrucciones y acceda a aquellos.
~
; ~"" "
PlayTennlsRS
- - - . - . . [rrm]
® - -~® 1ype
T tblt
ly-a)
T be
Temperature
Clementine. s·,ga la
SPSS Inc
SS
1. lngrese al SP programas / Clementine 12.0
I
secuencia: lnicio / ~ados ~ Luego, haga Clemen me 12,0
SPSS Inc / Clementine 12 · ·
clic en el icono del diamante. Docum n i on
lice rH e Autho~11~1~~:,:.::;..;.:__..J,...-'
---
Un, v 7 h h t ,I , :oil' ~1brlr, l.i •1lgtll1 1 11t I VPnl n n cuyo interior se hara el diseno
mostr d .
■ Output
2. Ant s d rnp 7 , d , , r II, r I moci lo, I primero qu debe hacer es revisar bien
la inform ion qul 1
n u ntr n I 1 drp ta archivo data\ PlayTennis\ playtennis·
evid nc .txt. f n I c1 f1 u, 1 , uil'ntc, 5 plant I sc nano de que se ha abierto
esta c rp tc1. Ln ,11 h,1y un .irch1vo L'n C"'I qu obs rvd que son cinco campos 0
par rn tro lo qrn l' v.in ,1 util11.1r. Cu,1110 cfo 1.:llo. c;on d nlr.ida (,nput) c:omoS Y
T mp , .:itu1 , I lumid1ly y Wmd . 11 otrc qw' qu ,cJ,1 (Pl yl nnis) s cl de sc1l1da (output!
1 MOfH r lW W1 net
HlJl 111 11
ttot tt I qh
~lot
Mi 1d 111qt,
ool N , mil
l)O 1 Nut rn i I
. t I II 11
M11d tilqh
- oul NlJI tll
M 11 ci NlJl·m
M 11 d Nnrm
t M 11 l
I t It l
MI I cl 11 I ,11
apilulo 6: Apli ac lanes con d'f
• i erente te>rnicas de mineria de clatos 97
Var FIie
@
Ent11p11.se View 01\abuo Vu F1lt Fixed Flit SPSS FIie Dimensions SAS Flit Exot l U,11 Input
4. Haga doble clic en el nodo var. File y \uego busque la ruta por la cual se encuentran
los datos a ser analizados. En el presente caso, dichos datos estan ubicados en la
siguiente ruta: archivo_data\ PlayTennis\ playtennis-evidence.txt. Luego, debido a
que los datos estan separados par un espacio, haga c\ic en el check box de Tab (en la
opci6n Delimiters).
Invalid characters:
[s~am default • !oeclmal symbol
Encoding:
unes to scan for type
Quoto
I Single quotes rDiscard
...-,
Double quotes Discard
, 11 !1 p I II , l
I 11
I I II•
6. El siguient p so uni! 1 I nu lo v,11 . 1111 y 1·I 11rn In I dblt , p, 11 r1 I,,, 11, ii d1 ·I ir·1 ,'1•.r•lr•cclonar
1
V H 11111
l 1< r •
on cJ1f£-rente e0
cas d m n£>na de datos 99
/iii' fC3
te.i f9>
: : No
S:r,cg fes
Ne;,-_. o
,e~., Yei
ll~aY Yei
Stroni. fes
Sl'o 'J Y~;
Mea, fei
B:tor~ to
pla-ytar n111- dine,
En esta figura se puede observar que hay catorce registros. El pa rametro Sky contiene
los valores Sunny, Overcast y Rain; el parametro Temperature, las parametros Hot,
Mild y Cool; el para metro Humidity, las valores High y Normal; el parametro W ind, los
valores Weak y Strong; finalmente, el parametro PlayTennis contiene los valores Yes y No.
8. Si busca determinar la cantidad de valores que tiene cada para metro, puede hacer uso
del nodo Distribution, para lo cual selecci6nelo de la pestana Graphs y arrastrelo a la
ventana de desarrollo, tal como se muestra en la figura .
1,
n I nodo Distribution. En la propiedad Field seleccione el c
arnpo
r tur y n la prop, d d Co lor escoja Temperature.
I
Field if Temperature
0Ve r1 y
] Proportional scale
Output Annota!Jons
mp r ture
► gecute 11 Cancel
1o. Lu ego de un clic en el bot6n Execute para obtener la visua lizaci6n de los datos. Enel
cas o de la figura siguiente, se puede observar que cuatro dat os son Cool, cuatro son
Hot y seis son Mild . Usted podrfa realizar los mismos pasos con el resto de parametros,
lo cu al le ayudara a manejar un conocimiento de las datos posefdos para asf tener una
idea de las resultados previos que se van a obtener del ana lisis.
G Eiie ~dlt
Temperature
□ cool ■ Hot
■ MIid
r OK i
/
aµftulo f>: Apli< ar,onP\ <.on difer .
<'rite.-, tee n1cas de mineria de datos 101
Temperature
12. Ahora haga clic al nodo Type. Podra observar que se han reconocido todos los
campos que tien e el arch ivo con sus respectivos tipos de datos. A continuaci6n,
proceda a dar un clic en Read Values para que empiece a reconocer todos los valores
que tiene cada campo .
Type
@ Ci-
- ---
~ 118 [ ► ReadValues
Type
j Clearv~!i[c1ear AIIValues
Values Missing Check D1recbon
Field ""-.. In
ovarcast,Raln,Sunny None
~ Sky Set
Cool,Hot,Mlld None ""-.. In
~ Temperature Set
Normal/High None ""-.. In
~ Humidity Flag
weak/Strong None ""-.. In
~ Wind
Flag ""-.. In
Yes/No None
W Play'Tennls Flag
!@•+
-■+
-A+
__ Type ...
0 View cu~ent nelde O View unused lleld &Bitings
Types_l F~ at_ J Annotations
&Jply
@[ cancel ]
h l nt 1,1d,1 (p111 ,111wt1 m ) t'n ll c11n1po Dir
1n hi ty1 ', 11l u 11 " v.i .i .i1i.1ll,i11, Ot ,pu
tiv s li<'lll ,l~ di l 1 l 1 I Id lf• LI ( Il l IV 1l lill) , :
1
m i
~ Humldltv Nonu In
~ Wind N 11 • In
~ Pl VT nnl Nun Oul
Form t Annot,1tlon
, nr I 1 p I [
En esta figura se advierte qu los c mpos Sky, l mp r tur ', Hurnidit y Wind han sid
considerados coma parametros d ntr d . n s ntido, I h stablec1do e
campo Direction coma In (vari bl s pr dictiv s), mi ntr qu c1I campo Playfenr
se le ha asignado Direction como Out (v lor pr dictiv ). P ra fin, lizar y sal1r de
ventana, presione el bot6n OK.
14. Ahora se agregara un modelo d min rf d d tos qu vt1 p rrnilir pr d cir s1 se pu' 1
jugar al tenis con ciertas condicion s cl im tic . p r llo, vJy, tl I 1 p, t fi;i Mod•lin
escoja el arbol de decisi6n CS.0y ubfqu lo n I p n Id d irrollo p,1 r, lu goconectd
con el nodo Type, tal coma se muestra n la fi ur mostr,,d, d cont111u,1 16n
I ,1bl
®
pt " '""""'' ~ lyp
M
T mp, r fur
103
·@ :
lp1avTennlsl
l - ---!
16. Arrastre este diamante generado al panel de desarrollo y luego conectelo al nodo
Type como se muestra en la figura.
!"ml
~ PlayTennls
Table
_ ___.., ®
®
playtennls-evlden Type
Temperature
◄
·1
/ ►
I IT nnl
18. aga ooble d ie en el nodo Analysis luego presione el bot6n E ecut . on llo, podra
visuarzar la cantidad de datos que fueron predichos de man ra corr t incorrecta
Segun la figura mostrada en la pa rte inferior, se puede obser ar qu I cantidad d~
da os predichos correctamente son catorce, los cu ales repres ntan I 100 ode los
dates. Por otra parte, los datos predichos de manera incorr ct on 0, lo cuale
representan O %. Debido a ello, y ya que ofrece resultado f r bl - , P ilM
concluir, entonces, que el modelo de arboles de decision es el ad uad par ab rd·lf
este tipo de problemas.
_Analysts Annotations
rm <1ifenmLes ternicas de mineria de datos 105
19 Ahora anada un nodo que per mi·t a ver una tabla cruzada de los valores predichos.
110 5 1
Par ,_ ·ccione el nodo Matrix de la pestana Output y conectelo al diamante
PlayT nniS, tc:11 como se muestra en la flgura ubicada en la parte inferior.
pl • nnls- de Type
--BJ
Temperab.Ire
20. Luego, haga doble clic y seleccione en las filas (rows) los valores reales de PlayTennis
y y en las columnas, (columns) las valores predichos de PlayTennis, segun como se
muestra en la siguiente figura .
PlayTmnis x SC-
[ii ~ - - - - - - - - - - - - -
Fields. • Selected O All flags (true values) 0 All Numerics
Columns: SC-PlayTennis ~
0 Include missing values
i m
: l
i ~
i
!PlayTennls
,___ x SC-Play
1 Q pu ob ener las resultados de los valo ~
ur ,g ,en e se pued
ad ernr que de los cin
. Co
r dichos de m nera correc a c1nco, m1entras que de los
ron pred1chos de manera correcta todos .
Q. n r
y
5 0
0
ranee Annotations
PlayTennls X C-Play
22 . Como siguiente paso para este ejemplo, anada un nodo Table (este se encuentra en
la pestana Output). Luego, conectelo con el nodo diamante (vease la fig ura siguiente).
i[i]i
i
: F:m
lm
ayTennls l
i. Table __ _
• c~
PlayTennls Analysis
PlayTennls x $C-Play.
Capitulo 6: plicarion con dif r ntt' t ni a d mi1W11,1 ch d,,t ~
ll) /
Table
------
- -- -- -- ~ --
(3Elle l;dlt
A
Sky Temperature Humidity Wind PlayTennls SC-PtavTenn1s[ SCC·Pla(Tennla
1 Sunny Hot High Weak No No 0 800
2 Sunny Hot High Strong No No 0 800
3 Overcast Hot High Weak Yes Yes 0 833
4 Rain Mild High Weak Yes Yes 0 800
5 Rain Cool Normal Weak Yes Yes 0 800
6 Rain Cool Normal Strong No No O 750
7 Overcast Coot Normal Strong Yes Yes 0 833
8 Sunny MIid High Weak No No O 800
9 Sunny Cool Normal Weak Yes Yes 0 750
10 Rain MIid Normal Weak Yes Yes O800
11 Sunny MIid Normal Strong Yes Yes O 750
12 Overcast MIid High Strong Yes Yes 0 833
13 Overcast Hot Normal Weak Yes Yes 0 833
14 Rain MIid High Strong No No O750
Table Annotatlons
OK
! categorfa %
: ■ No 35,714
: • Yes 64,286
:' __ Total t00,000 14
SkY
Sunnv
Overcast Rain
Node 1 Nodo 2
Categorfa % n categorf• % n
No
0,000 0 40,000 2
■ No
■ Yes 60,000 3 !.'!!!...
■ Yes 100,000 4 Tot I
Total 35,7t 4 5
Total 28,571 4
HumldllV
Wind
I I
I
Normal ltlgh
r strong
weak
NodoB
4 C ~:odo 7 , n
Nodo ca11qo~a _ n N 1 10
Node 3 cateqorfa 'lli n • No 0,000 0 ¥n ooo o
l_____J!■iN~o~~10~0~•,o~00~3
cateporfa % n No 100,000 2 • Y 100 000 TI I 21O• H J
26. Ubique el panel de desarrollo y haga doble clic en el diamante PlayTennisRS. Mediante
esto, tal como se ve en la figura, podra conocer las reglas que se han generado a partir
del modelo creado.
. - - -- - - '•
GEiie {) Q.enerate [@J-
_ ___,_ _ _ _ _ _ _ _ _ _ ___,,=--= 1
I
layTennlsRSI B · Rule 1 for No (2, 1,0)
1 1 If Sky = Rain
L and Wind= Strong
then No
El Rule 2 for No (3, 1,0)
If Sky = Sunny
L and Humidity= High
then No
B-127 Rules for Yes . contains 3 rule(s)
B ~u!e 1 for Yes (4, 1,0)
L If Sky = Overcast
then Yes
El ~ule 2 for Yes (3, 1,0)
if Sky= Rain
I ·· and Wind= Weak
then Yes
1 El-- R e 3 ror Yes , ,
1
1 if Sky = Sunny
' and Humidity = Normal
then Yes
D Default Yes
Summary I Setttngs An
n_!2!allons
OK [ cancel J --
E~ es~a figura se nota que se han . e la nurrierO
1 ind1ca que nose pu d . generado vanas reglas. De tod as ellas, la r gd _ strong-
e e Jugar al t · w·n - o
Un caso en que siempre . en1s si es que Sky= Rain Y ademas ' la nurrier
3 se juega al ten is si se cse Juel ga al ten is es cuando Sky= Overcast. En la reg
ump e que Sk
Y = Sunny y Humid ity = Normal.
Capitu1o 6: Aplic . /
ac,ones con d'f
1 erentes tecnicas
, de minerir1 de datos
109
0
+- C Li archive.lcs.uci.edu/rnl/data:;et,/lr1,
Attribute Characteristics:
IAssociated Tasks:
siguientes:
l r:;~
'
I,1,1 { l,i If
t' "L
, ( ~( '-'- ,;
. I . li,1t,1•r 11< 1,i .rr ,. :_;
, ~
J , •·
I) •. 11 ll ' . (1 ( I •, 'IJ · If) i' fl, ( ,1 J L "
r11(1d1·l<1 pr •(If( It / /' ·l ":O /(I'., ;r;J'K I r~~
11 1•. P •, 1 •11 •1 , ( • . t j 1•('• r, ,I .,· f , , ; '
. ' ...
/4
ti
1
11,1 l(• .olv1·r •',I(• l d r, ), ' , Cr·b n r ·guir los siguientes pasos.
l1tf'.1 t ·•.1• 111 ',I'', lr•rr1<·t1 tnr· '{ dhr I I ntana de desarrollo.
llt l(lldlf<•t1nt1• ltt1tl<,
: I no i I I It p. ir ,l p rl
V l t. I .
IH,l cil
pl l t .. o tt c n ,1/dr la inf0rrn;1u<'.ir1 qur,
~ p 'n ,l It! , quc lorrr1d parlr d lo·~ r<:<,W'h',
' ' n1I .1 un c he k t n I ope, n rab (, ·Jtj <'rl I<' >r>'l<J' r,
, LIi ' c , t'n l I bo16n OK.
) ') ..
lri d t t>-1
.r ra vi ual1zar la inforrnac16n d .I ,11ch1 vo, hag dobl • clic en ~I no:o Table Y Presiorie
O
I bot6n Ex cut'· f.n I dSO de· la hgur a siguient ', se pue e servar que en ella
I 4 son cons1derados como para
hc!y 150 r gI t Io y r; p,irfim ,t r os, de Ios cua rs metros
h th
d ntrarli1 (, pc1I I •nglh, sc pr1I w1ndth, petal_lengl , petal_wici ) Y uno, corn 0
pdI arn 'trod s.ilidd (class) para r l eJemplo.
132
I 7 900 3 800 6 400 2.000 lris-v1rglnL
133_ _,
I 6 400 2 800 5 600 2 200 lris-virginl
_ 6 300 2 800 5 100 1 500 lns-v1rglnl
134
6 1oo 2 600 5 600 1 400 lrls-v1rgini
135
7 700 3.000 6 100 2.300 lrls-virgini..
136
[i] .
137
138
6.300
6 400
6.000
3 400
3 100
3.000
5.600
5 500
4 800
2.400 lns-virgini
1 800 lris-virglni
1 800 lris-v1rg1rn
Table 139
6 900 3.100 5.400 2 100 lris-virgini
140
141 6 700 3 .100 5.600 2 400 lris-virglni
142 6.900 3.100 5.100 2.300 lrls-virgini
143 5.800 2 700 5.100 1.900 Iris-virgin!
144 6.800 3 200 5.900 2 300 lris-v1rgini
.!,!5 6.700 3.300 5.700 2.500 lris-virg1rn
146 6.700 3.000 5.200 2.300 lris-virg1rn
147 6.300 2.500 5.000 1.900 lris-virgini
148 6.500 3.000 5.200 2.000 lris-virgirn
149 6.200 3.400 5.400 2.300 lris-virglni
150 5.900 3.000 5.100 1.800 lris-virgini ....
Table Annotations J
5. Si quiere observar la cantidad de plantas que existe por cada clase, agregue el nodo
Distribution . Para ello, selecci6nelo de la pestana Graphs, arrastre lo al panel de
desarrollo y luego unalo con el nodo var. File.
[i]
/ ~:~,:
@
'"''""""~ -
I~
'! ...............
class .
Ii '11 I1 flh'dd i 11,1 I 1.1 1 lt 1( ( IPIH' ( 1.i•.•. I fl
~11\
t I' · 1 )ll, t l.1 y lu 'H, tl 1• 1111 1 II( 1·11 <·I li(J l<'Jll
E ! 11 I l..11 ll d1' Id llf'. ll l d 1,l1 •,1il1 ·1 it1 •, '•I' pllt·dt·
l,1 · ' /11 ,; 'i 'il so. 1 ) it1lu it, 111 l.i .(• t, /1• w·, •.1111/(Jt y
l'111p,,1111111 fl.
I
11, I 1
I 1111111
•,11
11, 11 1,1,
11, I I •,11
Cl3'
class
■ hi , V I lrol I ■ hi VII lnl
I 8
o e c c. e e· o -ype I I ego ores o ee
·ece a de ec a , ee os 1a ores e e
a t. o e 1os earn os (oaral'l'e· OS/.
'
. -
~
- - - --- ~ --- -
--~~~----~-~~-~=-=-=-===--~ •J
•• r
@
ins da
-
c ass
11 . Ubfquese en el nodo class, haga un die en el bot6n derec' o I ego 'es·o e a o::..:·o..,
Execute. Esto generara un nodo diamante, el cual aparece e ·a a e s~ e• o a
derecha en la pestana Models.
-~ fdlt..
01i;connect F3
Cuj Or1-X
X Delete swmr
\
].oad Node
~ Rebi~Node
!iave Node..
~ store Node ..
Create S.1!,PerNode
•
~ EJ,;ecule Clrl-E
1
class
1 Para poder analizar los resultados que se han obtenido con el mod elo generado,
agr gue al panel de desarrollo un nodo llamado Analysis, el cual se ha Ila ub1cado en
la pestana Output.
- - - - ~...► 11°'11
class i i
!Analysis i
~file .!;dit
Analysis
Analysis Annotations I
OI<
15. Af\ada un modo Matrix con el fin de saber cuantas clases han sido predichas de
manera correcta y cuantas de estas han sido predichas de manera incorrecta . Para ello,
coloque el nodo Matrix (este se encuentra en la pestana Output) y luego conectelo
con el nodo diamante class, tal coma se muestra en la figura siguiente.
c~
class Analysis
........... ·1
1■1
t.-~~~ti~- j
,
·~
o 47 3
o 1 49
-----
, •,1.,1 ,µ,,u ., ir,·,,,, t ,icJ;i ·,, adv rli r que de la clase Iris-setosa todos lo; 50
PlJl•do r datoS
10
.., , -,,,1,, 111 ,,,J11 1,. ,-, d, rri;m,•rn 1>x1to·,a, mi ntras que de la clase Iris-versico 0iar50en~10
.., -,,, :, , d, 1r ,,r ,,,, .r « 111 ,,, ta ,, 7 d to, d SO (3 fu ron reconocidos ·in correc iase11 Ir iS'
11 ,1
, ,"'", r,• , '•·1 ,, ' '' ' • ' ", ·• 1,, d,1•,o In•, Vlrgl nlca). Par Ultimo en cuanto a la c ocid
0
"'111v,11" ,, 1,,,,..,,d,, "'<•did,,,,,""" ,,_1;11ncn1 19 d,1tos d SO (solo un data f ue reco 0
,, 111•,11,,,,1, 11 1
•
1
1.. ,., ,1 L1 t L,·,, '
lri·, vc r',itolot) .
/
1 ~ ib r lil c nfi 11111 d pr dicci6n para cada uno de los registros, af\ada un
1,,l>ll II Pim I d d sa rr llo (dicho nodo se encuentra en la pestana Output) y
I
n d
n t ,1u I di rn :int cl ss, Lal como se muestra en la figura.
~
~Tble
·~ An lysl&
class k $C-class
19. H g dobl clic el nodo Table y luego presione el bot6n Execute para mostrar los
resultados.
, ' ~.~~
~ - '
~
_:--.•-~ ~;,.:~·~ -~ ""
: _ ~ - ~ j" ~
'' II
,II
1,1
I l II
' ,I l
I 111 11
p1 ,t 11 II II 11111,
I
I
I I I II 111 Ii' II 111
I I
I l11rln l
Nt1d11 I
~. II
- ~
lrl
,lh Jllll l
to 1UO,LIOO
I):, II
'•II r1.r1rir1 r,
,, II
■ Ith \llll ,I l' I
1 11,IIIW u Ill ' VOi 1, 11h11 '1rJ,11flll
11 II
11,UllU ll • lrl• vl11 1l11I d '1fl llflfl
■ 111•. vlr Jlnl ,
I '1fl 1111,11 '11,,f,ld I IHI
It.I I I
I
I
p11l,1I wlrlll,
I
21. lr1mbi n pu d 'll ob 1,t'rv.i1 l.1 1, 11 •1~.l,1•, q11t• 1,1• 11,1111:c•111•rt1do 1•11 (•I .'irhol d1 • cl l•Cl!Ji6n
Paril ftn, hr1g, doblt• c llt 1•11 1•1 11ncln dl.in1.111l v. 111 1.i v<·11l.1nt1 qlH' ,1pi1rN( ' en la
pJ1te i;up ilor r li 1ut P lt1 nprl6n {J11n1•1.il(l1 h1<•1:o 1 ,1 11(•( 1011 11 1<ul1• ':>t•l y h,11i,1cllren OK,
I •00 ,---,.
Rules for lris-setosa -~ i ~ ...
Rule 1 for lris-se osa
if pe al_leng = 1,900
the n lris-setosa
Rules for lris-ve s1color - con ains 1 le(s)
B - ule 1 or Iris- rsicolor
if petal_length > 1,900
_ and pe al_width = 1 .700
and pe al_le gth = ,900
then lris-versicolor
e:. Rules for lris-v;rginica - co ains 2 rule(s)
~ule 1 for lris-virgi ica
· if petal_length > 1,900
and petal_width = 1,700
and petal_lenglh > ,900
then lris-virginic a
Rule 2 for lris-virginica
if petal_length > 1,900
petal_width > 1,700
""
OK I Cancel J
En el conjunto de las reglas obtenidas se puede notar que para que una plan a sea
considerada coma lris-setosa el petal_length debe ser menor o igual a 1,9. Por otra parte,
para que una planta sea considerada coma lris-versicolor el petal_length debe ser mayor
que 1,9, el petal w idth debe ser menor o igual a 1,7 I, por ul ·mo, el pe al_length
debe ser menor ~ igua l a 4,9 .
Data mining - Mtneria de datos
5
6.3 Ca o n. 3: Predicci6n de farmacos
0
Tabla 6.1
Parametros de entrada
• Age: edad
• Sex: sexo
Fuente: <http://users.dsic.upv.es/~cferri/weka/CursDoctorat-weka.pdf>
En esta tabla se observa que hay cinco farmacos posibles: DrugA, DrugB, DrugC, DrugX,
DrugY. Estos han sido considerados coma el objetivo (para metros de salida). Ahora bien,
se han recogido, ademas, los datos del medicamento id6neo para mu chos pacientes en
cuatro hospitales (los ficheros estan en la carpeta practica_tres_farma cos perteneciente
a los recursos en lfnea de este libro) . Se pretende determinar el mejor medicamento a
probar en cada uno de los nuevos pacientes.
r;-·1 [i] ~
~
\.i:¥
jD r u g ~ Table ~ Drug
@ - -..... ®
Type
c~
Drug
Drug
j
L qu v I rt 11 ll P r l \ 1 n tru11 ,, l 'rn d1 1 lc t 1, I '>lf' ll il' nll' :
,, - ~~
- -- - - - - - - --.
,0.0', 68,tlLUQl
O.Ot,0944 dtu C
lngl quoht [ DI rd
l'!'l[lle l;d11
--·--~-.
I- .c
(5
X
Cz>] 1
Ao j aerj
22 F HIOH
BP ICholelleroLJ
NORMAL
I0ruv -
0 036 drugY
50 F NORM/IL HIGH I:: o064 drugX
20 F LOW NORMAL o 011 0 069 drugX
36 F HIOH NORMAL 0.575 0,037 drugY
18 F HIOH HIOH o 0es 0.024 drugY
57 F NORMAL NORMAL 0552 o021 drugY
70 M HIOH HIOH o s00 o oeo drugB
47 M HIOH HIGH 0.563 0 054 drug.A
65 M HIOH NORMAL 0.864 o 025 drugY
ORUGln
64 M HIOH NORMAL o 740 o035 drugY
58 M HIOH HIOH 0,769 O 040 drugY
23 M HIGH HIOH 0.534 O 067 drug.A
72 M LOW HIGH 0.547 0.034 drugY
72 M LOW HIGH 0.505 o 075 drugC
46 F HIGH HIGH 0.774 0 022 drugY
56 F LOW HIOH 0.849 o073 drugc
16 M LOW HIOH 0.743 0.062 drugC
52 M NORMAL HIGH o 550 0.056 drugX
23 M NORMAL NORMAL 0 785 o 056 drugX
40 F LOW NORMAL 0.684 0 060 drugX
T blo Annotellons
,!! [jj]··
:
~-1·····1
rnH Ii :
I I
!················.J
Table 1
®
DRUG1 n
Drug
/
rlllilulo 6: Apll, ,IC lo1wr. ( 11111llf1•11·111 .. ,, 11•1 111( ,I.,,.. 1111111·1 j ' (Ip cl,1111•. 1:,,•..,
4_Haga doble cite en el nodo D1 tribut1 n drug. Ln I, pr pl ,1Jr1d I ilPc.J 1,1•lc· ti rw Drun y lo
mismo en la prop1edad Color. Lu go pr, ion , I bot6n ~x •c.ut •. f n ,c• ,uld,-1vi~Lnli1tlr1.
la informaci6n d los m die m ntos qu , s I r , l, c.1 101, pc1 i •nl •t,, t I omo (,t'
:.J
muestra n la figura sigui nt n dond s obs rva qu n I l rncy rf I cJ, los ..,o
el medicamento drugY se aplica con mayor fr cu ncl (91 c O',) y •n olro d O' ,c.
aplica, por ejemplo, el medicam nto dru X (c:4 c o<,).
drugA
- - - ' ' - = =..~ ,- ~ Proportion
- - - ~ - - - 11,',
.., I
drugs
fl,O
drugC
drug)(
8,0
21,0
drugY _ _ _ _ _ _ _ _ _ _ _ _ _ _ __
◄ 5,S
Drug
drugA ■ drugB ■ drugC ■ drugX LJ drug'(
1
Table Oraph AnnotaUons
OK
·
5 Ahora selecc1one eI no d o Type de la categorfa Field Ops .y arrastrelo al panel de
. desarrollo para posteriormente enlazarlo con el nodo var. File DRUGln, ta 1 coma se
muestra en la figura.
~
/ Table
@ ________..,... rlf=::\1
~ \WI
i Type I
1 •••••••••••••••••
Drug
H dobl . y m trara una entana en la cual debe deterrninar 05
ntr i mo edad. se o, pres,on arterial, colesterol, sodio y calcio
c1on I par· metro de salida Drug (que es lo que se desea predecir) ,
l cit n I boton OK.
Format Annotallons
OK [ia~ L APPIY
rm,
~
/ Table
@ -® Type
► 1@
i Drug• ••
l ••
Drug
apitulo 6: plic-acione on clifc•rente II enir,,s <IP 111hw111 <IP <l,11os
8. Para generar el modelo seleccione el nodo cs.a llamado Drug, haga clic d
ho n I r
y seleccione el bot6n Execute. Esto va a permitir generar un diamante con I nombr
Drug, que se ubicara en la parte superior derecha de la pestafia Mod Is. Un st
diamante con el nodo Type, tal como se muestra en la figura.
fiffll
~
/ Table
® -~@
Type
-----►~@
Drug
,c~
; Drug
Drug
9 Ahora determine la precision del modelo generado. Para ello, selec~ione el nodo
· d e Ia ca t egori,a Output, arrastrelo al panel de desarrollo y unalo al nodo
· Analysis
diamante Drug.
~
/ Table
® ----►~@ ► ~
DRUG1n\ ~pe~ Drug
& Drug
c~
Drug An lysl
Data Mining - Minffla de
10 aga dob e c ·c e e
v sua 12ar ta orecisio de
ce ac1eri:o v 3 5 ae err r.
Anatvs1s
Anatrs1s Annotations
11. Para mejorar los resultados obtenidos por el primer mode lo creada, anal1c lo~ d ltos
Primero observe la relaci6n que hay entre las parametros (se o, pre ion arternl,
calesterol y medicamenta). En funci6n de esta, selecciane el nada Web de lci cc1te nJ
Graphs, conectelo con el nado var. File y haga dable clic en el. En la prop1ed.id Field
(en la pa rte derecha) de un clic y aparecera una ventana en la cual debe c,elec iondr lo
parametros que desee vincular. En el caso de la figura s1guiente se han sci cc1 n;,d
las parametros sexo, presi6n arterial, calesterol y medicamento.
Fields Sex
BP
Cholesterol
Drug
13. Analice ahora los valores numericos de Nay K para ver si ha una relacion significativa
entre ambos parametros. Afiada el nodo Plot de la categoria Graphs, seleccionelo y
arrastrelo al panel de desarrollo para luego unirlo al nodo var. File DRUGln, tal coma
se ve en la figura sigu iente.
®
DRUG1n
c~
• . ..... ·1 Drug
Drug
Ml
.......1v.
- 1 . I
...........
ion N
vn 1 #K
T I
Anlm lion
Output
Cancel
Annot hons
----=,,
15. En la figura ubicada en la pa rte inferior se puede advertir que, cuando la relac16n Na/kes
baJa, se les receta a las pacientes con rinitis alergica el medicamento drugY. Par otro lado,
cuando este nivel va en aumento, se les administra otros medicamentos a las pacientes.
Debido a esto se puede crear un parametro derivado de la relacion antes mencionada.
T bl
o,o
0,07
•• •
~ .. . .. .
-·····~, .. •• ..
.. -..
.. -~
. ...
.
• ' •
-
, • o•
.. . ...••
• • •• • • , 0.
0,06
• ., • • •• •
.. •• •
0
wo,os
:• ... •
•o
•
(boo
0
o
•... • ... 0 00 0 oO 0
~ 0 0 ° o ~o
aco
o 00
o
o '
o :
o_0
<900
4\ 0
00
000 ~ 0 00 0 ,
-0 0 0 o0 Oo O 0 o '
~0 0 O o 00 ~ 0 0 0 OCb Q
0 00
0,S
Nav K 0,6
0,7 0,8 0,9
Oraph , Anno !tons Ne
I 1tul r n dtf I C'nl s t 111<, c, de m111C'ria dP clatos
® -~
Type ~ NO
c~
DR 01 n Drug
[@l
I Derive I
Drug Nav. K
16. A continuaci6n, haga doble clic en el nodo Derive. En el Derive Field coloque el
nombre Na_k. En la propiedad General Functions de la parte derecha hay el icono
de una calculadora; haga clic en este y coloque la formula que se muestra en la figura
siguiente.
t• I~
~ 1
1CanceQ
v(/ ChJiCk Help J
,
,1 ii, rl lI IllJ
I
I1 I I I llll ( l1 I 11 ·I
r rur
nd
hi "
CgpyNod
X ll h!f
19. Ubique r> n I pi!nPI d (fr '>ilrrollo, lir1g,1 cl1c rl1•r1•th >y •,1•l1•rc 10,w l.i npr 111111 1.1•,11• /\',I,
, parr_n r · un nw vo nodo ( n r•I p.-1111 I cJ 'd' ,Hr >llo, •I c 1,ll l111•i~o l1•1iclt .'1q111· cn11 1•11,ir
c.:on I nodo dr-r1vt1do Nr1 K. llr1g,1 clobl<· lie r1I norlo lyp,• y 1, 11 ,il,1, 11 1•11 l.1 pr••,1.1 11 "
0
Annotation, DC' ,pu '',, <·n C 1-,1 orn <oloq1w I yp,, d, •r 1v. 11 lo. Pri ",If 111 ,, , •I ""', 111 /\pply Y
I J(>go fl bot6n OK. 11 rt •,ult rlo ', •r«'i c.ornn In vl•,10 1•11 l,1 f11',Utt1 •,in1 111 ,,i1, •.
'" \
zo E segu1da, er Lin nu vo m
de la relac16n /K. P ra lloI
I e o unalo con el nodo Typ
camb1arle d nombre d Dru
Aul • u
Ou ut D
u g
@ oise • Smple El
DruLdel1Y.l o
Favo~ • Accuracy
E1,p cted noise ( ) 0 •
~~
I Drug
DruCJ_denvado
· d dat s
134 Data mining - Minena
n n In l ~
22. Arrastre el diamante Orug_deri ado
L
@ :
:
. Drug d IIVhi
pe_denvadoj
···················-···-
Drug_deriv liO
23. Una vez generado el modelo, afiada un nodo An ly is p ra st 1l 11\ 1 1'1 f'1'l11'nt.1
de precision del modelo generado al admitir una nu variabl . P,ll ,l I ll1' , '11'11 'l'•1
el nodo Analysis de la categorfa Output, arrastrelo al p n I d d '~,111 II , \ 11 111\ ll' 1,
con el nodo diamante Drug_derivado (vease la figura i ui nl ').
@
Drug_deriv do
®---..
Type_derivado c~
►
Drug_derlvado An llV· I'
25. Para saber los valores del nuevo campo generado, vaya a la categorfa Output y
seleccione el nodo Table . Arrastre este nodo al panel de desarrollo y conectelo con el
nodo NA_K, tal coma se muestra en la figura.
IBl
l\!::£/l ~
!___NA_K __; ~ F::\
'dij
Type_derlvado
-
~
Table
26. Haga doble clic al nodo Table y presione el baton Execute. De ese modo, podra
visualizar finalmente el nuevo dato generado.
t)Q.enerate
____
I I ,,11 I J • ll l
II I I ti Ill ll j' I II I
__,.. ~
Drug
_ _..,. [C\J
lmiu NJ J,V,J
I bl•
Dtug Mil~IS
ti
1 ' • u 1 ." 4: I 10 1 le ma h1. t r (ca o mpleado Memolum Web)6
l l11.1 ,•1np1 t•' l Ir- ~uftwnr P ,r, Int rn t II m dc.l M molum Web quiere extraertipologfas
I1 1 111 I1 11 I
1
, 11'1 1 d (Ill
1
' '1 P I l • f 1 I bj t Iv d h r un polftic d personal mas
g1 llp , I
° , fun dam entada Y
tj
n Vol~
I 1·. ,, ,11 dil , . q111 1 • ,
1, 1'{ •n de la
11 1 d fi has d los quince ennpleados
1•111p11 1'. l 1, lll
1
11t--l<h 1 1,t11•li lu 11w ti 1 11 u, .,.
t " .. 1d11· •,I ••.1 c ' •.iclu < ll
. - -..
.
..I.- -
~ • Re'res ,
@I
---
Clear Values Clear All Values
®
arametros_ln\
00 Casado
A Coche
Hljos
09 Flag
09 Flag
, Range
SI/No
SI/No
(0,3]
None
None
None
~ In
~ In
~ In
00 Alq/Prop 09 Flag Prop/Alquil... None ~ In
SI/No None ,. In
8
~ Slndlc.
Bajas/Mo
AnUgOedad
a.Flag
, Range
, Range
(0,27]
[1,20]
None
None
~ In
~ In
~ Sexo a.Flag Mil-I None ,. n
®
empleados.txt
ai..@•+ -■+
-A+
parametros_in
< ap1t11lo f>: \ p llti11io1 u•,r1 111lli1 1•1ri 11ti .. 11 r 11l1,,•, 111• 111l111·1l11 d 1 d ,111, , I ,'I
4_El sigu1ente paso es ddr dobl cl1r n I nodo K MP,m ,. I uPgn, ',PIH c10111° lo1 r .ti ii 1d,H I
de clustercs que s sp r, forrnar. En ..,t ~ caso, pongr1 c 11 Nlllnlu•r rJ I , lw.t1•1•, Id
cannd d d '1 y haga cl1c en l xc urP.
KM •ns
I I)'JI I 1
~
Model llJlrl[ • Aul11 ( U llllll
"'] Uea p r1111onn11 rt Id
Nurnhor or clue! r
◄ 1:1
l~i
K·MB ns 1
I uor11 r,1111 di I r11 u n hi
I Show r lu I r fHD•lrnllY
C.lu I r I hfll ., blrl11u i tJur,11,11
L b I prullt [r1us1er
Opllrnl21 ! Bp et.I • 1Mlir11urv
5. Aparecera un diam ante con el K-Means. Selecci6nelo y cone lelo ,ii nodu I yp1,
parametros_in, tal com a se muestra en la Figura .
~ I M tn
-----►► @
empleados !xi p 1, metro _In
7. Afiada un nodo Table para poder ver d m n r m
cada uno de las registros. Para ello, I cci n d I
conectelo con el diamante K-Means, com
@
empleados M pa, rn hos_
~--- /
141
8· Haga doble clic al nodo Table. Apa rec era, una venta
la cual se observa que el tercer (3) y el na como 1a de la figura sigu1ent<-> n
cuarto (4) · ·- -
registro se encuentran en el clu:; (!r .J .
d EI 1
2
HIJOS Alq/Ptop
OAlquller
1 Alquller Sf
BaJas/Mo l Antigueu.id 8e10
7
3
15 H
iv -V
r:luster-1
p
3 3 3M ,,,11;tter-7
2 Prop Sf 5
4 4 10 H r.lrJ~ter-3
1 Alquller No 15 7M
5 5 r.llJStEr '3
0 Prop Sf 6H ctu-:.ter-3
6 6
0 Alquller Sf 3 16 114 r.,lu~tr:r 2
7 7 No 0 Alquiler
8 8
Sf 0 8H r,h;ster- 1
Sf 0 Prop Sf 2 6 r.lrJ~t.,r-2
9 9 Sf 3 Prop No 7 5H r,1,Jster-3
10 10 Sf 2 Prop No 1 20 H ti s er-1
11 11 No OAlquller No 2 12 M r,l•;stf:r-4
12 12 Sf 2 Prop No 3 1H r,11;-ster-3
13 13 No OAlquller No 27 5M cl Jc:ter-4
14 14 Sf 0 Alquller Sf 0 cluster-2
7H
15 Sf oAlquller No 3 cl!;-;ter- 1
2H
...._~-·
- -
,,,.,.,
Pull Your
Look Together
Sl'l0P
--
A ~ x1>ress C
~•.
• . 35~, Ladles Celeb Evening Fitted Formal Party Ladles Pencil Bodycon oresse
; j 95.6% clbU'f r en1 d 11',s P•Odu 65 -.ote., 737 ord•
.
•
I
.. us $13.77 Ip, a '
..t I
·,
__
~ - "'
._
• S M L 'l(L )Q(L
~-
.... ' -- .,.'
' -
,I
-...-- • ...,
Free &hipping to Peru \,\3 Chin a Post Re I terell AJr MJ<I •
1
_Cree un nuevo proyecto Y guardelo con el nombre de << ✓es'ido_c Jster_hbro11. L..1ego,
aiiada un nodo var. File que se encuentra en la categorfa de S01.;rce en el pare de
desarrollo y enlacelo con el archivo que se encuentra en ,a carpeta l1bro p'"actica_
cinco_paper.csv, tal como se muestra en la figura .
alos_de_vesbdos ~s Encoding
Deimllers - -
Types
do ar ~ le datos_de_ e dos.
tiene el arch, ,o Para ello, de la ca:ego_ ia Outp ·al
2. Ahora analice los datos que ,
seleccione el nodo Table y conectelo con e1 ro . -
como se muestra la figura.
,-------T-,::.:-~-~---
:~
abl:.
®
datos_d e_ves ·dos cs .
n I
II
: ;,\phcaciones c d"f
I C'rentes I ecni<'as de mlneria de flat os
on 14 5
@------~
"'"-''-'"" ' " ~
®• ►
-----►► ~
Typo__ clu~ter I Me 11 8
• Auln u tt1m
Modul rwm
,.,1 Use par1tllon!'d d I I
Numb r □1 r lust r ~1:
l J Oen rah> di· tanc P n Id
-Means I l BhoW clu t r proxlnlllv
•;11 1nu Nilltlb r
CIU t r l,1L1ol
J\1!1101 111111
I I )II I
I dt nunt I< 1\1 ,Hl '1 11 •,r 11•1 (I ,, Id, 11111, I 111 ti,, 1,,,, \ 111
, 1ll,1
I p.11 i v r I cIu l
q uc ' < h, 111 'I \(
r< ' I • dI ' I 11 I ' I I I I I ' ' 111 I II. 11 IJ II I \11
pu dt bs rv r qu I1 m 1 r can t 111,1 rl cI< It 1 1,, t ,
.;J f , '11, II r' I \ I I t I l 1 11 1 I I II, . I "I I\
l,1 n, n r rmtidad d I m1 m r < ,t 111 <' 11 1 •, 1 111•,1" 11 ', ' '
t<-Mo n1
1 lu ter 1 14 record
8. Para determinar en que cluster ha Lrlld ,1d,1 Ull dt• In' lt'tll',li11• ... 11•11111 11'
1 1111
nodo Table de la categorfa Output, arra lie lo JI I .i1wl dt' dc",,lltnlln v, ,1 , 11 •1 1t·li •'11
el diamante K-Means. 11
lyp1 _tlU I r
I I
En el co )m c ce s c~~ s :e -~
2 oerterece a s·e · :
c uster 3. De a s
a comoletar os 5
• Sueldo: s el a- 3 e ~ 5..
• Casado: s
• Coche: s1 iere e
7
El ante-a ;;.e esce cas ,._
148 Data mining - Unen de dato
11
ii VI ,t I illl II I I 11 I I , , I ' 1 II I ti I I •I I I I 'Hit 11" 11 II I 'I I Ii I I It •I II j I I,.,, I I I ",I, I I
1 1 11 I
l I, ' I V I I II, 11 II 11 It I,, I I I 1 1,11 1II 11 I u 11 ,1, I 1 1 1 1 I I, ,I ,11 1 II• 11 r 11,r •I •I 1
,, 1,.,,
1,,,,11,
11, ,,,
h 1ltlll11(,, ,,
II llflflf lu '"'I "
.,,,
ij (1J I ifl
I AJl11111 I
Jlll1t1 I h, I i,,.,, i
I 11111,11 I Ill,,,, ,,
1,
II """''' I
1111111,,,,
II
1"''"' 1111
I1 11,,,11,111, 111 I,
I◄ li1JIJll1, I
I, 0111,w, bi .,.,
I IHllllflll I 1•1 .,.,
Ir
Ill
n1,111, I h, ,,. ,.
1, ""''"' 1111I
I'"""
It•,,,,,
,,, ',,, flt
,11 41111,1, '"· ,. 1''', ,,,
I t,I
•
3 Par a cl n,ii I/ rl r '.:, I Io', cL d n . 1 ·',I {11 1 1 1Jr , 11 i I1•11J 1,, / ,1 /, 1 , , I, 1 , , ii 1, I!, 11 ( 1 , ll J 111 1• . I ·, 1 1, i1 1,
nodo D, tr1 Audit I/ ( Oil(•( 1,,1,, ( ,,,, r•l ,,1,dr, 1•r,q,l•·i1d1,•./l 1i(1 lu .,,, ••• , 11 ,1:,1 tl1,l,l1 I 11, ,,
el nodo Data Aud11ylu1•v,r11J11, 11, 1•111•11,,,1 ,11 J 111111• I 11 • .,, 11,.11,1•1 ,, , 11 ., ,,, , ,,,, 1
11
ventana coma l,1 qur- r;c• r11tJr".lrd 1•11 I, lt~'.'H" .1p,1Jl1·1,t1•
En e-:ta ;entana ,;,:; pur_:d,- rJL'.rr /,If 'l 11• 1-r, 1 ·1 1 011,1 ,1 , /·lq/l'r 1 ,1 1 ·II 1 11 11,/Jt• l I,, l,,if, •r
40 carr pos llerros -;ok) h,; f !,/, rr,,,. 1,.,,, ,~ 11• 1 r I l 1 ,,rr1r,t, I .lwl,,,. ·r, tl1,r, 1,, rl,.ti,,
haber 40 dato~ lier O', ',<Jlr.1 h,, / ~,,
. Aho, d tect I dat s que no o
P n I d d _arrollo un nodo Plot ue e
con t t nodo con el od ar. File e
f1 ura siguiente.
11 F1 I
1 II
qu n c;e rt>I ciona con r -pecto a
ontr st con lo otro
0
• E-tud10
••
•
.[•
es c
erP
C
• euni
bl
- 0
0 L+----,------r-------;--------:~
0 100 0 0 .oo 000 0 000 00 000
urldu
ph Arn I ll n
Execute.
B I /Ano 1lllll
1lllll
• 111111 ,11011 [
Ill I
N 11
V Anlt ll d
'llllllllfl I
t l lltH tl1\II
· Pl' I 111
f'lol 1111011
1111
ll 1111 I
I 11 l.1 ... n1111d.1111-;111.1 •,1• p111" I1• u I 1,' 11•vi11111cl1tci1
• • 1u1•11JLic·r1·t r·I.H 1rJ11 rmln•
1
J, rJ ·rn~,
tl.1111• , 11111111 d,1111 -111t1111.ilu 1 ', 1•1 l 11.il iitdl "ll 111 ' lu•, ·ll)JJli •.rJ cJ O', no Pltr•rJr.r, tr-n£,;
/,
lilt.I I ,111t1d.1d dt• 111111•, dt v, lllll 111'1-\.lllV y, !Jlll I 1tclr·, llf ( ('',dtlO Jrt (•V,1r (,r,tr• rJ ·1'1 11,
I I
• •
•
• •
U loin
/4y IIIIIJII !I
0
1
10 I', 20
R•lu/A o
\ I pl1
7. V11 •lv.i .i i111,1<l11 1!11111otlo Plot C011 r• .1,, v.i r1 10', cJ.ito
,m,ili 7, r
HI r r C
.i l.1 ,1111111,11 •cl.id y .ii f",t.1du 111,1t11111or11,1 I rl1• lo•, c•rnplc .ido•, (v1\ f1gur
l 11t ·g11, pu •·,10111• 1•1 liuto11 l x,, utP ,
( ,llgU
•
••
••
• .•
' a ado
:)
~
Ct-
...
•• •
• •
••• •
Cr
••
0 100 o-, :zO '...'./
iu ldo
Or ph
8. Ahora elimine los datos an6malo:; (en Est1:: eje:rrp o, ::e rar ercortrado dos: uro con respecto
al sueldo y otro con respecto a la can dad de hiJO'.:J. Para e o, raga dob e c c e e rodo Table
y luego presione el bot6n Execute. J:..s,, 1isualizara o:; datos que con ere e arcr 10 Jesp0es,
busque los datos an6malos ; selecc16nelos ::egun como se rruestra ,a figura s g1.i'erte.
Ho 2 Pr~D :!!
140 0.-JQ, (
'~ ~
. : ...
(j•
61 3 i>rop ,= V
51J00Uo ,ir, 0 s· • I-'
J ; M Dot
1;5000 110 sr 0 Prop I?
SPrG" •? l •~ Ill Bat
51000 Si 81
23000 ,o s o,-;.-r
'1 Prr,p
f s 7
0
21-,
~,... Bat
JlOOOSI 1tll· !! t
30000 :i HI
11 20000 tlO 1;.. t
~
7H FP
t.000 Io ? ;p
9000 tlo '.) ow
,~
60001J Si Qi
Si
sr
2
0
q ..
&000 Io ·o
30000 81 Sf l l!I
2
Si
23000 No
sr 2: 7M
431JCO tlo ~ ) Ji' <P
l '3000 0 8 1)1 Sr.
21000 81 SI ·o-
1$000 SI
30000S'
81
sr -~
!
'"
10000 sr '11
40000 ,,o sr
"'
"
rd~ H
L'U
Ann I l1rn
1·. n da ah · 3 LIil nocio Tt1blC' p,11,1 µodL'I vi'>ucllitar los d 110., H,1r,,1 dobl Ii 11 11 Jdo
Table \ pr I nt ,1 boton ~xPc.ute. C 1lJP , c., 1ll,11 qut lin c ti b,1ld11 P 110 c v,,n J
· ns1derar los do r gi!>tros lirninddos d b1cio 1 quP ~011 tlnom~los .
. ·,
. ."
- -------- -
,llnrl l I
IEI Sueldo I
l - ttol och r11110· IAIQIProiif
I 1 13000 No SI OProp
I
2 --...-- -2 32000 Sf No ') Prop
(I
No
[jjJ 3 12000 No No 0 AlqUIILH
3
1 Prop No :I
- 4 4 41000 sr SI
5 5 5000 No No 0 r 0
Table 6 6 65000 No sr 0 Prop No :l
Range
, Range
Flag
Flag
Range
Set
oe Flag
, Range
~ Range
Flag
811
Off'
Specify
Vlew unused neld settings
14. Reemplace los valores en blanco del campo Estudios. Para ello, nl ac al ,wli ~r
con un nodo Filler que se encuentra en la categorfa Field Ops y lu eg ha ,1 dt)t 1
en el nodo Filler para colocar la condici6n. Despues de esto, pre •ione el bl tl111 OK
@
FIii In neld
Estudlos -------~~~--~
Repl te Wllh
'Obi'
Caplt tlo fr i\nl
,. , Ioru <; l on <11f •rent ,r., t nl as ti m111 lid <IC' dato~
·---~----~-
M i{mru
/
uoldr, V AnUguqda / '
'"''
mpl ~d
- - -.... ~ -®
(generated) F ltr T b
~ ~ Bueldo v AnllgCieda
11 Fields
16. Realice doble clic en el nodo Table y luego cliquee el bot6n Execute para que se
puedan visualizar los datos.
18 Uni
FP
..
HI 21 13000 No Bi OAlquller Si
20 22 21000 SI 81 1 Prop No 1 7111 Bat
21 23 15000 Bl Sf 2 Prop Si 5 10H Obi
22 24 30000 Sf Sf 1 Alqutler No 15 7111 Uni
Sf OProp Sf 1 SH Obi
2'.l 25 10000 Sf
Sf 0 Alqu1ler Sf 3 16 II\
24 26 40000 No
No OAlquller Sf 0 8H
25 27 25000 No
SI 0 81 2 6M
28 28 20000 No
Sf 3 Prop No 7 5H
27 29 20000 SI
OAlquller No 7 4H Obi
28 30 10000 er t~o
0 Alqu1ler tJo 2 12111 Doc
29 31 50000 No No
tJo 3 1H Obi
30 32 8000 81 er 2 Prop
27 5111 B C
1 No OAlquller tlo
33 20000 No 7H Obi
SI 0
32 34 10000 No er O.AJquller
) lH FP
OAlquller tJo
33 35 8000 Mo SI
'2H Dot
Sf 1 Prop tJo
34 36 50000 81 1 2M Obi
Sf 1 Prop SI
35 37 7000 No 10 8H FP
Sf 2 Prop Sf
38
37
38
38
39
40
30000 81
32000 No
33000 No
No
Sf
0 Prop
3 Pro
No
No
2
5
J Ill
7H
Uni
nl ..
17 · Luego, trabaje sabre el campo Alq/Prop . En este caso, observara que hay 3 datos qu
nose han ingresado. Debido a ello, elimine los valores en blanco I pong los v lor s
que deben tener estos campos haciendo uso del ult1mo Table generr.1do.
· I · los p 10 n bl'-m1 o Ln 1
18. Haga doble clic en el nodo Table y se ecc1on . " P,irtr,
· • I re pita I 1 acL1on n I •ct Ned
superior de la ventana cllquee Generate Y uego c J r,,10
nd
permitira generar un nuevo nodo en el panel de desarrollo I ur1I l ' d CJtJL: conr•ct,n
con el nodo Filler.
19. A continuaci6n, haga doble clic en el nodo Generated y elija el modo Discard para que
nose consideren los espacios en blanco. Luego, cliquee OK.
!" ··············-····1
~ - ~ j:
I
@1
➔, l
I
,
!<generated)!
'Alq/Prop' = ""
Condition
Annot· non
l Cancel
[ 8')ply
( p t 11
ll dlf I llt( t Ill ) d lnhl( fl, tit dJl "
► d
21. El siguiente paso sera a nadir un clasificador que permita predecir el valor de la vivienda
de cada uno de los datos que estan en blanco. Para ello, de la categona Modeling
seleccione el nodo CRT y enlacelo con el nodo Type. Luego, selecc1one el clasificador.
Haga clic derecho en el y presione el baton Execute. Luego de esto aparecera un
diamante, el cual debera enlazar con el nodo Type.
Ao.
~ top
led) ◄
CRISP-DIil Classes
CT u11slM!d project)
BuslnnS lhlerst
Data Understanding
AIQ/PfOP
Data Pr par ton
MOdelng
Alq/Prop E uation
D ptomient
2 Part1 v I I par nt j d precision d •I rnodelo crPt1do, I c 10n I I n I lo /\ 11 ,11y,.1'y
con ct lo con el diarnante CRT Alq/Prop. Lu go, hag dobl cli I'll I I nndo A11,,1y,•I',
,, 1c1 c1 E ta acci6n, podra v r la precision del morl lo.
I: CollapseAII
8 Results for output field Alq/Prop
l-=1 Comparing_$R-AlqJProp with Alq/Prop
Correct 34 97,14%
Wrong 1 2,86% .11~ ,I ,
[ Total _ _ 35
Analysis Annotations f
23. Para observar las datos que se han predicho, copie el nodo Type y con 1• tell) rnn
el nodo Filler. Luego, enlace el nodo Type con el diamante CRT Alq/Pr op qut' ,t' h.1
creado y conectelo con un nodo Table.
-----►--@
pe Filler (gener t d)
Alq/1 ,op
Type
~1
········-··· i
Alq/Prop ,fml 1
' - - - - - - - - -- - - - ~ -- -~L=f· hll I
1~,
/
pftulo 6: Apli tl Ion" con cliferente tecnic as de mincria de datos 161
24 . Haga doble clic en el nodo Table y luego presione el bot6n Execute para poder
v1sualiz r las d, tos. En el caso de la figura siguiente, se puede visualizar que el data
falt·intP d I r gistro numero 5 ha sido predicho coma Alquiler al igual que ocurre con
el p rt neciente al numero 16.
f
fEI Sueldo Cas rjo Cor.he HIio~ Al rop Slndlc Ba1as/Allor.'-ntl Uedad 8eYofE·,tudlO!l $R•Alq/P~OP
1 13000 No Sf 0 Prop No 2 3M Obi rop
2 32000 Sf No 2 Prop Sf 1 15111 Bae
3 3 12000 No No 0 Alquller No 0 6H Obi
4 4 41000 SI SI 3 Prop No 3 13 H Uni
5 5 5000 No No 0 Sf 0 1H Obi
6 6 65000 No Sf 0 Prop No 3 8M Doc
7 7 53000 Sf Sf 5 Prop No 4 18 M Bae
8 9 23000 No Bf oAlquller SI 7 2H Obi
g 9 31000 SI No 0 Prop SI 0 SH Bae
10 10 Joooo sr Sf 2 Prop No 1 20 H Bae
11 11 20000 No sr 1 AJquller sr 3 3M Uni
12 12 13000 No No 0 Prop No 12 2H Bae
13 13 11000 No sr 0Alquiler No 0 7H FP
14 14 9000 No sr 1 Prop sr 2 3H FP
15 15 60000 sr sr 4 Prop No 0 10111 Uni
16_ _ 17 6000 No Sf 0 No 0 1H Obi
_17_ _ 19 23000 No Sf 0 Prop No 2 4111 Bae
Sf 3 Alquller Si 20 7H Uni
18 20 43000 No
~ 21 13000 No Sf o Alquller sr 3 3M FP
_20_ _ 22 21000 Sf sr 1 Prop No 1 7f'A Bae
~
. &
®. Type
Alq/Prop
---
Table
I cll1lfllll I JI Vt l1t ·ld 1111111•-t1I
26. Proceda ad r dobl cli en ~1 no lo Dl r IVt . 1.n . I
I I 111 11
(-\U,lllf.\ll'',t f
I,tl11111111 ,n11 , 11 •
1' 1111 I ti
SET_ESTUDIOS yen Deriv A mi:lrqu t. Lll ,1
I
...
~
-- -- - -=----- ------;~
-
M11l1ipl
Id
SET_ESTUDIOS
f I It V I 1 [1 1 I 1lll1
, If IIH
2
3
•5
27. Pa ra od r v r Y v1 u Ir
lfl
o
Tabl al nodo riv y h
Capilulo b: Aphc ar iones .
- con diferentC'<, L{>cnicac; de mineria d<' datos 163
@
V· Fields 14 In, 3 filtered, O renam'ld, 11 o
--
r
8 )JS/Ano V Hl)OS I Field Filler Field
fEJ --------..c~'..-
#EJ
Sueldo
-
Sueldo
Casado Casado
Cache
Cache
@
--
Hljos
.r
da Alq/Prop
Slndlc
~
-
_ESTUDIOS BaJas/Afio
Anligliedad
Sexo
I® Estudios ~
-
$R-Alq/Prop
·p, l•lq/Pr r·
1 FIiter SET_ESTUDIOS SET_ESTUOIOS
29. Use un nodo Matrix de la categorfa Output para ver la informaci6n en un cuadro de
doble entrada entre cache y casado. En el caso de la figura siguiente, puede observarse
en la tabla que de las personas que son casadas 12 tienen cache y 3 no lo tienen. Por
otro lado, de las personas sol teras 16 tienen cache y 7 no lo tienen.
Ma nx of Casaao by
G E.ile fdit
Cache
Casado No Sf
@ Sf
7
3
16
12
asado x Coche
~ l • ,I I l' llilllfJ',
• I
- • • ••·..,
•
- ••••
••
••••
•
•
• • •• •
0
•• •• •
[i] 0 ,
0 .:o 000 •10 000 0 (IUtl
~
'liu ldo
xScx
30. Como siguiente paso, anada un nodo Type y conectelo con cl nodo Filter. Luego d
haber escogido los valores de entrada, conecte el nodo Type con un nodo Plot para
poder ver la relacion entre estudios, sue ldo y la propiedad.
. '".. - - - -, --
.Qenerate ~YJw,
Af op 5 q/PrOP
• • QUI r
-
0 • ·- ... •
e PrOP
ble
0
~3
~
1-1
• .... .. •
""u,2
••• •
1 - ••• ••
OetMJ
0
£
ldo " SET_E
:-0.000
u ldo
'10 rJOO
16~
•
.,,
15
•
,,.,• • •
~o
.:l •
\ •
C:
C
• 0
s • • •
•
£
Sueldo v "1lbgueda
Sueld
-10 .
'
32. Haga clic en la pa rte superior del menu en la opcion Generatluego escoja Derive N de Set. '>
Con ello podra crear un nuevo nodo que conectara a su , e:: con el ultimo nodo T' pe crea
Luego, conecte el nodo Derive generado a un nodo Table para er las resultado tenid .
[i] tJH
6H
IH '
1
0
Table SM
3
,4 I M 3
- ~® 9
9
10
0
1
:J
SH
.OH
3M
.H I
J
'
T
~H 3
TyPe 12
0 ,H
l JH
0 10/11
IH '
1
[fjJ 20
0
'
;H '
3 J
Tallie
It,
ld(llor,t,
l.1J"11,f1w9 ltlfli•rtt•
Uombrt(orripari,
tlt'Jftbr•r•TIJ/jl 11 rr,plt•do
141,,,,., ,,,,,, llornbrt'or,hcto
I trt,1P•dlOC>
f,jl~1tgr,r(4 CargoConhc!o
f trh1Errtttg-,
f 11r1t 1J.,,j~r,,1 Drrtw6n
f •th1£r,vfo
flud•d
f r,rrr,~lrMr,
P•g16n
'1rgr1
(6dP01tal
u•1t1n•l•r10
P•I>
u1rn,16n(1' 1t1r
lellrono
f.,
N,,,,, ,rll!
'"'''-'''
fritt f 1l•r-.t1 1
'n>11 ►4•nrri1,,r
, ,rtli1f IJr.Jrtt
rJ1r•r11t:.r,
'1 1,11,,i
,,,,,,,, ,~.,
f'•s, 1'1n
(
P•I:
r 1rH,1r.t,u1,,
lh•ti;11,,,
f,,t,,
,,,,, '
Ft,?ura 6.1 B,J ',/• dr 1],it , , rJ, r I
' •· • I 1Jr1r )
f IJ /'.• [!tl•• I ' ,JIJ' r,
j
Ill/
1 tr ,1\ , d,
d\ l \'ll ll 11 -.11
l
ntrar
Capitulo 6: plicaciones con d"f
1 erentes tecmcas
· de mineri;i cle datos 169
@ t Refresh
dns_neptuno
Mode
• Table SQL 'Juery
TablesNlews
.Catalogo
.Cllentes y proveedores por cludad
Consulta de pedldos
Show-~ l,!ser Tables ~ 1'.1ews
Data Filter Types
0 Sr.,tem Tables
OK [ Cancel
5. Para poder visualizar los datos, seleccione un nodo Table de la categorfa Output y
unalo con el nodo SQL. Luego, ejecutelo para ver los datos. En el caso de lo mostrado
por la figura, se observa que se han obtenido 12 registros.
ORD ANYO
11- - - - 1 - 1 1994A SnullS
1- - - - 1
2 19948 $null$
2
3 j 31994C 2413 030
4
J 4 19940 4404 160
:_J
rffl1 5
6 :__J
5 1995A
619958
6356 030
7547140
~
/T•bl• .l!7
g
10
11
7 1995C
8 19950
9 1996A
1019968
11 1996C
8457 620
9282 360
12998 7
124959
$null$
®
12 19960 SnuliS
1L
VentasPorCuatrlmes ..
Table Annotations
6. Continuando con el ejercicio, elim ine los valores nu lo_s debido a que no avudan a
predec1r el volumen de ventas. Para ello, real ice dobl~ cli~ en el nodo Table, seleccione
un valor nu lo y luego, en la parte superior del men~, cl1q uee Generate. En seguida,
seleccione la opci6n Select Node con la cual lograra ~~nerar un nu~vo nodo Select.
Haga doble ch c en este nodo y ponga Discard en la opc,on Mode. Al finalizar, presione
el bot6n OK. Si desea visualizar la informaci6n, debe colocar un nodo Table.
@
lode Include Discard
@NULL(TOTAL)
Condition
Settings Annotations
7. Elimine algunos datos que no parecen estar completes y que, por lo tanto, no van
ayudar a predecir el volumen de la venta. Para ello, re pita los mis mos pasos anteriores.
Haga doble clic al ultimo Table usado y luego seleccione las dos valores a el1minar (en
este caso, 1994C y 1996B) . Vuelva al menu y seleccione en la pa rte sup erior la opcion
Generate, asi coma tambien Select Node (Or) . Todo esto permitira crear un nuevo
nodo select que sera conectado con el nodo Select creado anteriorm ente. No olvide
que al crear el nodo Select debe poner en Mode la opci6n Discard.
® _ __,,►► @ _,...,@ 1 1 I
Condition
Settings Annotaburi
1/1
"''
, I
1,1 l,i I 111r11rlf'ri11, ., Ii.,, lrllr.i J1> ; rp11 1,ir, (.f•r ·,td ',
I II I II t, V 11 I 1 1
' ·, 111.i ·I 111,d,, , •11, I , r r1dr1, 1,r, 111 r, 1 l11 f,1~111•
rd· I, 1 •.i lr,bl, I1 1I r,,,, j ,, I.ti I, y prr•·,1r,ri1• •I h11t ',r, Ix ut
(U• 11 r I rl)
,tit Annot 11 n
rK
9 /\nc1lic c1 hora c6mo sr h;:rn comf)ortado lo,; dato'.. de las ventas Para Pllo, haga u:.o d~I
nodo Plot que s ubic en la r..cJt gorid Grdphs y c.onectelo con el ultimo nodo SE:lect
generado. Luego, haga doble clic al nodo Plot y seleccione los valores. En la parte
inferior en la pestaiia Options escoja el Style como Line y luego presione Execute para
ver las r sultados.
ORD V TOT L
•t TOTAL
I
fi Xfleld r, ORO
Overlay
I
I Golar: r ..I] Size ..0 Shape
RDv TOTAL/
I
Smoother
Fun~lion
Output Annotations
Plot Options Appearan Ce
OK )(erute
En la figura siguiente siguier te se p e e o se · a
de acuerdo al paso del t1emoo. Por o o la o, la -- .... _
- --
resulta necesano aplicar un nodo de regres·o ·
14.000
12.00
..J l0.00
...C
0
I- 8.00
4 s 6
ORO
(generated)
►
T
~~6~p~11i::::==-=-~=--~------~---/
on ., con dite t
ren es ter.nicas de mineria de da 0
173
atys1s
ORD"' 1504,6 +
- 1605,8
Ftelds
Build Settings
Training Summary
13. Evalue el diamant e obtenido. Para ello, conectelo con un nodo Type y luego a ur
odo Multiplot de la categorfa Graphs. Posteriormente, seleccione las opciones que
se muestran y presione el bot6n Execute para acceder a los resultados.
overlay -
~Arumat1on-[
[ Panel: [
□ NormallZe
:,
□ overlay function
TOTAL
hen number of records greater lhan [ 2000 j:
En la figura s1g, 1en ere P ede o bservar q ue el modelo obtenido se ajusta bastante al
modelo r&:!al
0 2 4 6 8 10 12
ORD
TOTAL
_$E-
TOTAL
14. Para poder aplicar este modelo a cualquier valor lo que tiene que hacer ahora es cager
un nodo diamante y conectarlo con el ultimo nodo Select generado. Una vez hecho
esto, haga clic derecho y seleccione Generate User Input Node.
!;_d1t
G- Connect F2
D12connect
F3
Rename and Annota e...
Cu-
cttl-X
~
C.QpyNode
ctrt-C
X. Qelete
Suprll!W
/ "'" ~
1=oad Node.
Relrle~e Node
§.ave Node ..
Sore Node
Cacne
►
Data Mapping
►
Create Sy_perNode
►
Gener;ite User r.;21Jt
C 1~
Md To Odels Palette
~TAL
®
User Input
/
Capitu1o 6- Apll ·
· caciones con diferentes Lecnicas de minerl,1 de datos 175
1s. Aparecera un nodo User Input en el cual debe ahora indicar los valores que va a
predecir. Para ello, haga doble clic y escoja los valores 3, 10, 11 y 12 en la columna
ORD, ya que todo esto constituye lo que interesa.
®l
ANYO
~ String
TOTAL
<8)Real
$E·TOTAL ®Real
User Input
16. Luego debera unir el nodo User Input con el nodo diamante. Posteriormente, debe
unir este nodo diamante con un nodo Table.
1®1---.. . ,:~
l~: ~
Table
!User Input! TOTAL
' ---------··..···'
17. Al hacer doble clic al nodo Table, se podra observar que se han obtenido los siguientes
resultados:
Table Mnotat,ons
er Input TOTAL Table
.
Data mmlng - Mtneria de datos
[i) [i]
Table / Table
QP!) y - -
@ ►~
- -... ~ ~
(llenerated) (llener.ted) ® ---1►►~
Type
~
TOTAL [TOTAL $E-TOTALJ v ®
User riput
►
0
6.8 Caso n. 8: Catalog_forecast (series de tiempo)
A continuaci6n, se va a resolver un ejemplo tornado del tutorial de 5::,:.:: ,. . e ·2-:-~-2 :
cu al consiste en hacer un pron6stico de ventas. La informacion col') a .e :e :,..3_ ::- ~ ~
se encuentra en el stream catalog_forecast y la base de dat s
ubicados ambos en la carpeta practica_ocho_catalog_forecast. Pa,..a ::--~. ~ .. : -2:-::~
hay que dar doble clic al stream antes mencionado. Luego, se vera
----~► @
tatog_seasf~c.sav
Time rlVa\s m n
men
apitulo 6: Apllcac lones <on diferentes tecnlcas de mlneria de datos 177
Como paso in1c1al, agregue un node Table y enlacelo con el node SPSS. Luego,
hc1g doble cl1c en el nodo Table. Aparecera una ventana. En seguida, presione
I bot6n Execute para poder visualizar la informaci6n. Saldra un cuadro come el
mostrado en la figura siguiente, en el cual se observan las ventas de los hombres
y mujeres en determinadas fechas.
1
date men =r women I jewel
89-01 01 11357 9 .. 16578.9... 1 0776.3... 7978
Imail Ipage Iphone I
73 34 22294 4... •
2 I1989-02-01 10605.9 .. 18236.1... 10821 .9... 8290 88 29 27426.4 .. .
3 1989-03-01 16998.5 ... 43393.5... 22845.7 .. 8029 65 24 27978.6 .. .
4 1989-04-01 6563.750 30908.4 ... 11102.6... 7752 85 20 28949.6 .. .
5 j1989-05-01 6607 .690 28701 .5 ... 16066.5 ... 8685 74 17 22642 .2...
6 1989-06-01 9839.000 2964 7.5... 11061 .2... 784 7 87 30 2721
7 !1989-07-01 9398.320 31141 .5 ... 11328.9... 7881 79 28 2663 2 42 2
8 !1989-08-01 10395.5 ... 31177.3... 16788.8 ... 8121 72 27 30374 9 ..
1989-09-01 11663.1... 30672.3.. 14452.6... 7811 83 35 26794 7
1989-10-01 12805.2 ... 37633.3 ... 16055.8 ... 8706 111 25 32808.1
1989-11-01 13636.2... 33890.9 ... 24556.5 ... 8811 74 30 28589.7
12 1989-12-01 22849.0 ... 51378 .0... 34645.8... 1 0... 105 45 38738.6.
13 1990-01-01 12325.8 ... 18103.0... 11528.2 ... 8081 66 35 22723 .6.
14 1990-02-01 8273.580 20979.5... 12884.8 ... 8378 59 20 24912.4 ..
_1L__j 1990-03-01 10061.1 ... 34503.1... 147481 .. . 8586 60 25 29917.5 ...
.1.§__j 1990-04-01 11497.7... 26783 .9... 9595.200 8438 82 35 20911.5 ..
.1l__J 1990-05-01 10363.1 ... 31790.1 ... 15926.0... 8589 91 28 26902.8 ..
.1.L__j 1990-06-01 10194.6... 32432.7 ... 11383.0... 8565 80 25 26079.1 ..
19 !1990-07-01 8401 .240 37180.0 ... 16052.9... 8526 64 24 35957 2. .
20 j 1990-08-01 13642.8 ... 29658.8... 14803.3 ... 8978 74 32 25415.9 .. ...
[► '
Table
T Plot y luego pres1one el bot6n Execut
2 A continuac,on. hag doble clic en ~I no~~ ~l~~al pod ra observar que las ventas esta:
par cera una ventana con un gratico , a de t endencia.
aumentando y d1sminuyendo en relacion a 1a 1ine
IT'8n
40 00
men
$TS-men
(men ST'S-me
10.000
Graph Annotabons
OK
3. Construya ahora una proyecci6n de venta para las mujeres. Para ello, de la categorfa
Field Ops seleccione el nodo Time Intervals y conectelo con el nodo SPSS. Luego, haga
doble cl ic al nodo Time Intervals y seleccione los datos. En Time Intervals escoja la
opci6n Months, debido a que el analisis se hara segun un periodo de meses.
[i]
/ Table
@ ~
nme Interval: [111ontt1_s _ _ _ _;_)
Field Ii date:1
AA\
\f:!:/
Time Intervals woman
4 De la categorfa Modeling seleccione un nodo Time Series y conectelo con el nodo Time
Intervals woman. Luego, haga_doble clic yen Target seleccione las ventas de women.
En la pa rte inferior de la pestana Model cambie el metodo a Exponential Smoothing Y
luego haga clic en el bot6n Execute. Aparecera, entonces, un nodo diamante.
@ Per1od1cit, 12
m
Use type node settings • Use custom settings
Targets~~~!.!.!.....~ - - - - - ~ - - - - - - - - - - - - ,~ :
Inputs.
..
~
woman
crJ
@ sortt,y[Selecte_d_ • •~view Simple .
Number of records used ,n est1mabon t 20
Targa1 Model Predictors stabonar,R"i a C!f s~
® .
ntervals
,.y
-
Simple 0 0,419
summary St11bst,cs
83,041 17 0 0,
t.ir B:•
cancel
It l'I d1.i111.1nt 1 w 111 '' 11 n11 l 111
0 11 , 'l 11 I( >I IITll Pl 1r qu1 ',t l'IH lll•11t1i1 , 1 c ti r•po
1
1ll 11 11
1.1phs, I lll' 1 n. 11.ig.i dol I ' Ii Y 'ti I 1 1 l()lll ' lo•, v.ilort", < nr110 ',P 11111< 11 ,tr.i 1 1l11\,1 r1~
( ( ( 111 I 11
r,'"1,1
, W011HHI
s r111 , , r l-worn 11
r [:
u lorn
['womon $TS-wom p n I I I t'1orm JIit
Dleplay ~I Un
r l Point
I Smooth r
7. Haga doble clic en el bot6n Execute. Se mostrara un cuadro similar <1 este:
00,000
women
-$TS-women
60.000
40,000
20,000
on ns-wom
1/1/90 . --,_
l/l/ 9l l/l/94 1/1/96
$'T(_ TlmeLabel 1/1/90
Oraph Annotation
/
---
._ .:: ---= .:.- _. ':: - = -= --
182 Data mining- Mlneria de datos
@ ...... ~ IF., ~
D:\DAZA_LIBRO_MINERIADEDATOS\llbro\pract1ca_nueve_computer_harware\machlne.da1a
FIie: D:\DAZA_LIBRO_MINERIADEDATOS\libro\practica_nueve_computer_harware\machlne.dat r-
j ·
FIie Data
~-
Filter I T
-- l ypes . Annotations 1-
OK [ Cancel J
/
183
2 Analice ahora la r lac,6n entr: las variables MMIN y ERP. Para ello, af\ada un nodo Plot
d la categoria Graphs Y conectelo con el nodo var. File. Haga doble clic y seleccione
la opc1ones como se muestra la figura siguiente.
Y ERP
OK l ~cute l r-c;ncel
--=-----==::::...::;;;;;;;:_.,,,.=.1
' '
1 .200 '
- - '~----------------►-------
'-- - -- - - - · -
I
'
'
1.000 --~----- -- ----- - ---~--- ----- -·
'
-- : . ---
- ~
•Ra •
•RHd•
•Rt O•
•Rt id• U ri
•R11cl,.. ''
I
~I I Use type node settings Use custom settings
ERP ..! Target , , ER_
P_ _ _ _ _ _ _ _ -- - ..[l
Inputs ----
, MMIN ..[]
:=,-::::a.::,,==-====-==-=====~==-==ri
Partition 1 ~
.. (;E)-----
Typ MIN
RP
7. Para ver el modelo que se ha creado mediante la regresi6n lineal, haga doblc cl1c al
diamante ERP y vaya a la pestana Summary.
. . I l,1 Ii
•1 t"pply y lu g n x' ut . A parllr d csto, se v1sualizara una ventana
trnh l.1 dl I f 1•u1 1 ui 'nt , n I c1 cu I s pu d obscrvar que los valores del ERP
,,um nt rn y k,nllnuy n n r . p cto I l1n a de tendencia.
1 . 00
1 .000
000
600
400
200
0
r - r-
0 10 .000 20.000 30 ,000 <10.000
MM1N
ERP
SE-
E:RP
Qr ph "'1not 11011
r OK l
Capitulo 6: Aplicaciones con diferentes tecnicas de mineria de datos
Ejercicio propuesto
sasado en el caso anterior, se le propane analizar la relaci6n que hay entre MMAX y ERP, asf
coma tambien el valor de ERP real con respecto a la If nea de tendencia de ERP. El objetivo
final es poder llegar a construir un modelo como el de la figura siguiente.
_ _____.,~I
I
L
ERP
--'
I
~ ----tlr► M
~
~
@~ ERP
ERP !SE-ERP ERP] v MMIN
~
ERP (ERP SE-ERP) v MliWC
Los pasos que se van a emprend r para crear un modelo como el de la figura s1gu1err
son los sigu1ent s:
►@ ►@ ►@
'f c,eo'f• edl ~
' f / Anomaly
regmn x m
& tncrop x.
~ @---.. . . . .
dtlT
Anomaly Table
table
cla,mvalue
name
1. Conecte a un nodo var. File el archivo con los datos que se encuentra n ubicados en la
carpeta llamada practica_diez_detecci6n_de_fraudes, pertenec iente a los recursos en
If nea de este Ii bro. Luego, haga doble clic en el nodo var. File y seleccione las opciones
como se muestra la figura siguiente. Posteriormente, realice un clic en el baton Appl\·
y luego en OK.
@I : Refresh ] ,. ?
DIOAZA_UBRO_MINERIAOEOATOS\Jlbro\practlca_dlez_deteccton_de_tl'audes\QrRnlfraudN
1
FIie AZA_Ll8RO_MINERIAOEDATOS~lbro\practlca_dlez_deteccton_de_fraudes\granlftaudN db
id,nlllle,region,ta~ize,raintall,l,mdquality,tacaincoae,aaincrop ,cl61lltype,c
id601,naae601,aidl,mdo,1480,30,8,330729.0,wheat,decoaa1ooion land, 0 .1
id602,naae602,north,1780,42,9,734118.0,aaize,arable dev, , 747 3
245354 0
id603 naae603,llidl,mdo 500 69 7 231965 o ca ••••d d-
4 ___ • ecoaaiooion land 84:13. 0 •
1
gr1ntfnl1JdN db 1
~
◄
5
6
_7 _
e
g
,-o- -
11
12
AnnotaUons
J\ [ _ _-_
~ Field: name
O proportional scale
- Plcrt I Appearance Output Annotations
OK [ ► . ~~~ I cancel
dates
v-
n1m16l 8
name777I
Pro on ,,,
1,33
0,67
Count r
••
namt601 I 0,33
name602I 0,33
namt603I 0,33
nama&o•I 0,33
name605l 0,33
nam1606) 0,33
Oilm 607j 0,33
name60B) 0,33
nama&091 0,33
name6l0) 0,33
namt611 I 0,33
namo612 I 0,33
nomt61J I 0,33
namo614 I 0,33
nam1615I 0,33
5. Basado en los datos encontrados, elimine estos registros, para lo cual seleccione los
valores que tienen mas de una sol icitud en el nodo Distribution. Luego, en la parte
superior seleccione las opciones coma se muestra en la fig ura siguiente. Asf, aparecera
un nodo Select el cual debera conectar con el nodo var. Fil e. Despu es de esto, haga
doble clic.
=m=es~,,.__--;. _ _ _ _ _ _ _ _ _ t----'-
-....:.:-
8
Pro
:.:,P:;:Drll.::::•::..
n - - -- - - -- - -----=~~. 33
coonl
name777I 0,67
nama6D1I 0,33
name602) 0,33
name&0JI 0,33
nama604 I O,JJ
name605 I 0,33
name608 I o,33
nama607 I 0.33
nama6DBI 0,33
name609 I De!MNodeforT1bl1 0,33
name610I 0,33
name61 I I 1111.,tt Nocle (boool) o,33
name612I 0,33
@
Mode j lncluae <!) Dlscara
Cona111on
name
Belllnga AnnOlllbona
m r c-;,.,
/
1utulo fr pllcc1c lones con diferente~ tccnicas de mineria de datos 191
centres n I s caract risticas de la solicitud de ayuda de una sola granja. Con el uso
7
de Cl m ntm pu d construir un modelo para estimar lo que se espera : el ingreso
d un r nj n func,on de su tamano, el tipo principal cultivo, el tipo de suelo,etc.
p I pr p rar el modelado, es necesario derivar nuevos campos utilizando el lenguaje
L[M en un nodo Derive . Ahora estime el ingreso mediante una formula simple del
tipo «farmsize * lluvia * landquality». Para ello, de la categorfa Field Ops seleccione el
nodo Derive Y luego conectelo con el nodo Select. Posteriormente, haga doble clic e
,ngrese los datos, tal coma se muestra en la figura siguiente.
Oartvw II Formula
Mode • Bingle Mulbple
D rr,e vs l rormula •
Field type I -f •Default> •
'
.....
: ,~·y..._.:._. ~-~~~-.
1/1' ,.~_
·,,-,;
Table
@ oertve •• Formula
@ !Oloda • Single Mu pie
ar_lncome
•r Oo11eral Functions
Funcbon
rarmsiZe Integer
nrsLnon_null_lndex(US integer Integer
nalnfall
Integer
losLnon_null_lndex(US
lue_atONT,UST)
nol(COND)
MY
Boolean
..
1andqu1111y
'
malncrop
Integer
String
If CONDI 1118n EXPR1 el AIIY clalmtype String
~ ~ ~ - - - - lfCOND1 lhon EXPR1 el AIIY
Data mining - Min ria d dato
@
~~ dlferencla
overlay
1
Color
,----
1 clalmtype ..[) Panel [----==---
..,[]
-·Animation I- - - .,.o'
Plot Options Appearance Output Annotations
OK I• ► Execute
- I• 1cancel
L ~ r:::
L t,pply 'l B.esel
cla1rntype
arable dev
decornm1ss1on_land
60
1:::,
-- . - .. .. -~ -.. - ...
u
040
.. . .. .. ..
20
.
0 20
Enti la presente
·, figura se Pue de observa ,11 J
es mac1on con aquellos datos d I . r que existe una mayor rlifcrenc1c1 t J
esto, se trabajara con estos. e c a1mtype que son del tipo arable _cicv 0eb1t1L1
\l) •
·11 h I
I t
, un riudo N ur ti N •t qu ·, r,n 11r,11trr1 ( n l,1 r ,1t1,gori,1 Mod, linP. y
' ( Oi lPt t11I
I no r lyp, Oc••,pu ,, hcJP,d dobl1• cli "n ( I nodrJ N, ur ,11 rJ,.t y 1111 • ,, 0
1
1 J Ill l",irJ ,
ut, Dr r>',f rnodo ,1pdr<•c r{1 un d1,11n.1nt, r•n l,1 pr11 tr • ·,1 11,r 1,c I J 11P
' I I ' I 1'1I
•t, d 1,1n,rnlPcon .,lnodoTyp<•. 1 "
J\i u ,r11 Iv
I 111,.,, 1,"
[yptJ
14 .Lgr~g1J': ahora un riodo Or>riv, [Jr.Ha gr•nr•rar un nw•vo Vi-l lor 11•t11Pncl r,, c,r11() di1l o t'I
1alor qu~ bota r~l rnod Jo dP lrJ rr,d n, urnndl crP;id,J. P,1t,1 r•llrJ, r cmr'•c I r In .ti rl i.111 1, 1111 '
cl~1rn ;;lu ; lu,~go hag,J doblr, lie <•n <•I r1odo O<•riw·. 1)£1•,r,w'.. ,1 , rJl"'I' 11 , l,1Ir111,1 1il.i ri 111 '
'., 'J rr u~:, ra 0 n la neurn :,icu,~ntr•. r 1nrJlrrwntP, h,1r~,J r,l1r r•ri /\pply y r•r t ()I
Para poder comprobar si 1::I mocielo que se cre6 en el ejcrcic10 numero 3 (el cual tiene
na preci~i6n ciel 99,5 %) es confiable, se haran las pruebas con nuevos dates. De ese
rr odo, ~e pod ra determinar !:.i la precision del modelo se mant,ene. Con ese obJetivo, se
deben :.eguir estos pa O'":
~ a,. -- fl
• I , , T;,
, ,/ (,. .
196 Data mining - Mlnena de datos
,
2. Si qui ere observar la cantidad de datos que hay en el archive'. agregue un nodot
de la categorfa Output y luego conectelo con el nodo var. File de nornbre DR able
Despues haga doble clic en el nodo Table para visualizar los dat os, tal corno s lJG2n.
la figura 'siguiente en la cual, par eJemplo,
. se pue de Observa r que hay 400 datos
ernuest ra
UG1n
[i]. ---
1
Age sex BP Cholesterol
60 F NORMAL HIGH
Na K Drug
~
/'"'
0.632 0.□28 drugY
2 39 M NORMAL HIGH 4
0.820 0.062 drugx
3 43 M HIGH HIGH 0.753 0.020 drugY
4 27 M NORMAL NORMAL 0.550 0.071 drugX
5 52 F HIGH NORMAL 0.611 o044 drugs
6 21 M LOW HIGH 0.673 0.027 drugy
7 48 M NORMAL HIGH
@
0.890 0.□28 drugY
8 64 M LOW HIGH
9 34 M NORMAL NORMAL
0.886 o06 4 drugc
0.656 0.048 drugX
10 47 F HIGH NORMAL 0.786
DRUG2n 11 38 F 0.068 drugA
NORMAL NORMAL 0.520
12 38 F 0.051 drugX
NORMAL NORMAL 0.530
13 67 M O 063 drugX
LOW HIGH 0.567
14 25 F 0.021 drugY
LOW NORMAL 0.576
15 41 M 0.071 drugX
NORMAL HIGH 0.551
16 29 F 0.022 drugY
HIGH HIGH
17 0.759 0.042 drugY
54 M LOW NORMAL
18 0.864 0.072 drugX drugY
47 F LOW NORMAL
19 0.769 O 061 drugX
74F LOW NORMAL
20 0.513 O050 drugX
57 F NORMAL HIGH 0.884 O048 drugY
Table Annotations
•
3. Seleccione los nodos como se muestra en la figura y luego haga una copia de estosy
peguelos en el mismo espacio de trabajo.
~
/"" [j]
-----~ ~
Table
~
NA_K
Drug_derivJdO
Drug_der!VlldO
Drug
~- - - --------- M ~s
,ptl,, JII If ,H Hlltl
I
cw
0 UO I
► -----«-.;
5. Realice las mismos pasos con el archivo DRUG3n. Para ello, agregue un nue.;o rir do
var. File de la categorfa Source. Despues, haga doble clic al nodo y ub,que el rc.h, 10
de la carpeta practica_once_datos_fresco_drug.
•' ........
~ --- - ~ - - --- - - -
lqe,Sex,BP,Cbolesu:rol,• ,K,Druq
2s,r,HIGH,IIIGH,0.675996,0.074834,drugA
17,r,BIGH,HIGH,0.539756,0,030091,druqY
23,ft,LOTl,ROPJt!.L,0.55645J,O.OJ618,dcugT .., ►
198 Data mining - Mineria de datos
6. Para visualizar los datos del archivo agregue un nodo Table de la categorfa Output
luego enlacelo con el archivo DRUG3n. Despues, haga doble clic Y presione el boto~
Execute. En el caso de la figura siguiente, puede observar que hay 600 registros nuevos
que permitiran evaluar la precision del modelo.
@ 1
Age Sex
2 F HIGH
Cholesterol
HIGH
Na
0.676
K Drug
0.075 drugA
DRUG2n
2 17F HIGH HIGH 0.540 0.030 drugY
3 23 M LOW NORMAL 0.556 0.036 drugY
[i] .
4
5
_6 _
24 M
74F
40 F
NORMAL
LOW
NORMAL
NORMAL
HIGH
HIGH
0.845
0.850
0.677
0.055 drugY
0.077 drugC
0.050 drugX
/""
7 32F HIGH HIGH 0.582 0.025 drugY
8 70 M LOW HIGH 0.716 0.037 drugY
9 64 M HIGH NORMAL 0.641 0.078 drugs
10 45 M HIGH HIGH 0.664 0.048 drugA
11 33 F LOW NORMAL 0.822 0028 drugY
®
DRUG3n
12
13
14
15
74F
73 M
38 F
72 F
LOW
HIGH
LOW
HIGH
NORMAL
HIGH
NORMAL
0.772
NORMA NORMAL 792
.794
0.534
0.048 drugY
0.062 drugs
0.052 drugY
0.021 drugY
16 27F HIGH NORMAL 0.555 0.047 drugA
17 62 M HIGH NORMAL 0.510 0.071 drugs
18 72 M HIGH NORMAL 0.819 0.074 drugS
19 19 M HIGH NORMAL
• Sources • Record 0.553 0.033 drugY
20 28 M HIGH HIGH 0.584 0.068 drugA
7. Seleccione los nodos. Luego, copielos y peguelos en el proyecto que se esta realizando
para enlazarlo posteriormente con el archivo DRUG3n.
@
NA_K
envado Analysis
Clrl-X
Cop~
Clrl-C
X. Qelete
*-- -
Suprimtr
Create SyperNoae
Analysis
~ E11ecute Sele~n- ~,,; --
ap1tulo 6: \pliracione con diferentes tecnicas de minena de datos 199
8 _Finalmente, para pod er ver la precision del modelo, haga doble clic en el node Analysis
luego pres1one el boton Execute. Deese modo, alcanzara a visualizar que la precision
~el modelo es del 99 % Y, en ese sentido, ha mejorado con respecto al caso anterior.
Analysis
Ejercicio propuesto
Ahora rea lice las mismos pasos de los ejemplos anteriores, pero, en este caso, en funci6n del
archivo DRUG4n. Al final, debera llegar a la precision que se muestra en la figura .
2. Para poder visualizar la informaci6n de todos las registros, agregue un nodo Table que
se encuentra en la categorfa Output. Lu ego, enlacelo con el nodo Append que se ha
agregado, haga doble clic en el nodo Table y presione el bot6n Execute. En el caso de la
figura siguiente, se puede visualizar 2200 registros de los 4 archives que se han integrado
NA_K
l;.dlt
_ I 4 i=se,fHIGHBP
Age
()Qenerate
Cholesterol
r~
Na ~ Drug
(y
~
NORMAL 0 538 0 070 drugA
!_ j 35 F HIOH HIOH 0 636 0 068 drugA
5 J 32 M NORMAL NORMAL O056 drug:<
0 690
/ "'"
6
1
41F HIOH NORMAL 0 730 O025 tlrugY
7 15 F NORMAL HIOH 0 014 O061 drug,'<
8 71 F HIOH NORMAL 0 801 o040 drugY
9
10
l 54 M HIOH NORMAL 0 650 o045 drugB
11 i 21 F NORMAL HIOH 0 053 rugY
®
7H NORMAL HIOH OOHJ 4 gJ(
11 0 627
Append
13
u
i 34 F
0H
61 M
LOW
HIOH
HIOH
HIOH
HIOH
0 736
0 504
drugC
o076 drugB
O029 drugY
15 NORMAL 0 009
50 F NORMAL HIOH o023 drug'(
16 0 813
17
39 F LOW HIOH 0 500 o025 drugY
27 F HIOH O075 druQA
18_ NORMAL 0 856
40 M NORMAL NORMAL o065 drug)(
19
20
10 F
48 F
NORMAL
LOW
HIOH
HIOH
0 820
0 621
0.840
o030 druoY
o031 drugY
.
Tablr> Annotr,t1on•,
oi<
1 r< f nndo Mr1trrx dr I
tH' 1111 t ,
td (Jgor 1a Output ,
lnbl c I1 1•11 r •I nr,do M,it t ix y ,,, ,1, Y con~ctelo con E:I riodo ,
ion • la:, ope.ion ,. D , ,.. per d. -;;g.;;
E!.,. espue:;, pre:.ione el be • E/.&
',1 Ir r,tr rJ
r ,/ °''
<'nlurnn r'f t::hlliHl"rl)I
"'J lnr,hJd1> rnt • mg .-ar 11 e~
Coll r ontllnl· Funr. o,
App IHI -
,r,
En I figura ubicada en la pa rte inferior se puede observar que las personas a ·e ~er er
un pr sion arterial High y un colesterol High son 406, las personas que te e.... ra
presion arterial Low y un colesterol Normal son 348, mientras que las perso as c~e
tienen una presi6n arterial Normal y un colesterol High son 382.
Matt x of BP by Chol it ro
fdll O Qenerate
Cholesterol
BP HIOH NORMAL
HIGH 406 362
_l,PW ~ 371 348
NORMAL J 382 331
Append
4. Cree ahora un nuevo modelo del cual usar 1800 datos para entrenamien
· t
° aa
su prueba o validez. Para ello, copie el nodo NA_K y conectelo con el nodo Appen
Luego, agregue un nodo Type de la categorfa Field Ops Y unalo con el nodo -
Despues, haga doble clic en el nodo Type y ponga coma salida al parame·ro or
/ able
®
0 ~~!.., Field
Range
e
('.) Age
r&) Sex if Discrete
~BP tf D1Scre1e
A ChOleslerol tf Discrete
AIIPeno Na ~ Range
K ~R;inge
~ Drug tf Discrete
7 NA_K ff •Defautl>
7
1
..
,,
203
a ace e e • e~a
CRT, CS.O, C .A 0, e rae" o t c~r os 1800 datos
el a e e · ~ ecci6 elos de I
OS e e :.1esar'o o Desp , , a
. es, co ectelos con el
___,... ~
,;_e
C
fl
10. Conecte todos los diamantes que se han generado con el nodo Sa m pl p ra prob,ir la
probabilidad de predecir los registros en cada uno de los Cdsos f>, rr1 II , , !Pcr1onc
un nodo diamante, por ejemplo, CS.O y luego conectelo con I nodo D tos µ, ueba,
tal como se muestra la figura siguiente.
e
Datos_prueb
Drug
Drug
Drug
/
205
t
e ------
-------II►
Drng
~T
Analysis
0 Drug Analysis
c~
Drug
----..BJ
Analysis
Drug Analysis
. Pr ceda a ejecutar cada uno de los nodes Analysis para que se puedan obtener los
re ultados. En la figura siguiente se observa que la precision de la prediccion correcta
e datos del modelo drug_cs.a ha sido del 100 %.
drug_chald drug_c5.0
Analysis Annotations
OK
(-► ...
It ►
f• 1hllu11 l
AJ1110 111f I h I h1 1 I I ll I\ fin ~ 111
I II I I·
14 . /\gr
1
'f',LJC' u1111 d I cic• li1 1111'1, >II IP, )fd c p v 1·1i11t't kit, dt • ~ 111 ,, 1 'll 1'1111 1 '
cl1 p,1rtill n De Pl.It''>, lngrt'"'( I <I.it i (JlH ' ,c rntH' l1,1 11 1 11 I 1 11 :t 11 , 1 .1 :1111' 1t1' '·'
1
1
1 1
lnl or rn,1c 1 11 l11clt1yt' 10 , cl11to dP <111t11•11.11n11 1 11tti \Jlll ' r ' P i t' 1 1 11Li111'1 · ' ',, d,• t,,,\,, I '
r<·r~r,.t ro~.
- -- -~- --
. ---- . ·,
I' 111111111 1
IDL I ,, 11IIU1 h 'I llh II'" '' llh•
I 1111111111111
• MIHI IIIIU
I 11111(
• •
l • I ''II· I. II I I ,,,,
•I, ,11111, 1 I I ,1, .a I,
1 I, I I 111,,,1, lt1 , , 1,
1
I ' I II I 11 I '
I If If tj
J I I
I I I I
◄
1
• ',,1.,J., < ~;;,•J:::~ . !; • · - :.> '... · r:..1-:r_ :~,:.r :P ~
-
,~.,, 1 f . ,, ~ :.. ~ : =:, ~ -· t'~ .....,- .,, .-,..1~ :c:,:.1,:_ ~ir_ ';.M ~
18. Ahora coloque los nodos d•a a E- q e ::.:e c c:: :--:; ~:-:.:: : '= - = =-
-- - - -- .:.- - :
i; ...
Ilil. ~
l
◄ ----
i T~ble '
(
/
pilulo b: ph .--11 lOll s l on clil , , ,
~~-~~-~~---,__:::.:'..:.. l:_l1~
:__tt,::s~IC'C Ille., ... dt• milll'ti,I rlL• tl,,IO'i ?,09
d I pr
isi6n de los modelos con los datos nuevos agregue
o on ctelo a cad a uno de los diamantes creados. '
c~
c5.0_p
-. ~
..-.t .~ drug_c5 .0
----- @- drug_chald
@m] Sel ct
Tabl
~
► ~
RN. p drug_rn
r-···--·
~t
..- IiBJl;
CRT_p 1 drug_crt 1
20. Haga die en cada uno de los nodos Analysis para ver las resultadas. Par ejemplo, si
hace dable clic en el noda Analysis drug_cS.O y luega en el baton Execute, padra
observar que los datos han sida predichos de manera carrecta al 100 %, es decir, ni un
solo registro ha sido predicha incarrectamente.
Chald_p druo_c11a1
RN_p
21. Del mismo modoI tambien es posible ver las resultados del nodo
,
Analysis drug~ch a1.d
Para ello, haga doble clic en este nodo y presione el baton Execute, as[ Podr~
comprobar que las datos han sido predichos de manera correcta con una precision
del 95, 75 % y con un error de predicci6n del 4,25 %, lo que, en comparaci6n con el
modelo anterior, representa una mejora del 2 %.
c~
c50_p
B Results for output field Drug
drug_c5.0 B Com arln $R-Drug with Drug
'Partition' 2_prueba
Correct 383 95,75%
Wrong 17 4,25%
chald_p drug_chal Total 400
cf b, m, ·di,, rJ I 1 , , li,rr
lose! I J
rJconJunt . lfl,1 /Prlr•IH,il Ii,, ·,1d,1 ,,. '1r,1l,1dr, p11r ,,j f ,r
d Motc1 Jur ll1t · 1m p , J<,d, cir• n" td . ,
H nnqll nd rt p J1r1 (,/\KC) d I r·nlr, rlr•, rir',
t;
rrir•drr ,, ,~,, r•I r ,rur1r1 d, Ir, ;1••,t11-'.·'' 11,11
f<r', I , '
It d , "' df1Lif Ir1rI 1./lr•<lt ,1 < htrlirl-'.l' ,,1 1 , d,,,.
a Ul • (Lyon, f r,in ,, ). Lo' dc1t ,, hi1n orr,,m11,rd,, ,.,, du•, l,tn·,,·, /J,, , l,1•,1f1r ,,, 1!1r1
it ' nt , p ro r lac,on rlo . L, f)r1rnr•rrJ rJr<•r1 rm•,1·,t,, r•r, < lr1•,1f 11 ,,r " lr1', r1,1r ,,,r,1,.,,
n10P rt nee, nte aun d 1. •.trr•,cr1tr-gorir1 : /lorrn,1l(HJ(Jp,1r1r•ril1••J,lw,,,,11,,rr1111
0 paci nt s)_o Espondllol1 _t , ( I O p;JC t< rile••,). Pr1rr1 1,, ,,,.1~w,d,, tr1ri•,1, 1,,•,, ,di•wir/,i•,
de o,sco Hernia Y Esponddol, ,.,,,c ,
ur11r•ron r•n imr1 ',()l,i c,t11•wJrfr1 rJ1•ri1Jrn1rir1d,1 i ,,r11<1
Anormal. De este modo, Ir "f'P,1 irirJ.1 tr1rr•r1 <<1w,i•,tc• r,n <lr1•,1f1< ,,r " l<J', fJr1c11·ritr•', < r;rw1
pertenec1entes a uno d c,1d, doc; c,it 1 ·f~orir1•,: llorrnril (100 f)r1c,,·rilr•'.,) u /n,irrr ,,,I (/HJ
pac1entes).
Cada data del pac, nt ',lrl rPprPwntc-1do c n "I conJunto de dr-Jto~ pm ·,r ,,, rJt rrbutu·,
bromecanrcos derivados d la forma Y onn1tac16n d lr.1 pPlv,,, y la colurnrw lurnb-ir (r•ri
este orden): incid nc1a de la pelvis, la incl,naci6n d · la p •lvi~, r•I aneulo de• la lord0•,1·
lumbar, sacra pendiente, radio pelvico y grado de !.poncJ1lol1:,tr-, l d , le1w•nt<· 1 ,~ .
~
. . ..
lfrnJI
rrrn
/ 0... :--------~
►
~
CI s_dRS - / T1Dle 240 ® c.1n1d
_/ ' "'" ,,
--~IP"e -~ · ....
Tabla ~c
@ ~ ® CIUll
c.11
~
11,,r:r1"
~
\!::!) ----._, · Table
........____
--.____
Clmrt ,OJ
D
C0Mnn1)cc 1[!Jl ® ------► @ :-----:"'''
Sta11,11cs u11,1 ~
Paluon • ~ t,n
~ C C,5 O AAl,V,,11
@ cim ,,.,
7 Flelds
Se;ecl ~
c&R r,ue
Figura 61
4
· Modelo para el caso numero 13
I atu mining - Min rtn d • ti 10 '
( d b n 1J 11tl1r lo I ul nt pa o :
1, A .id.) un n do v, r. FIi ncu ntr . n la c t gorfa Sou re y luego busque lo
di1Loc; ciu I sc rp t pr ctica_t r c _co lumn a_vertebral. 5
[ h J
D \DAZA_ LIORO MINf RIAOElDATO \llliro\pr clli I L lurw ootwnn
nco1 J
---------------------~-- j-----
L PPlv ti,
2. p r vi u liL r lo data ,
un nodo t ble qu s ubica en la cc1trr,oric1 Ouput
y on ct lo con I nodo v r.
I t I coma s
mu str n la figura s1gu1cnl<' en la
CUc I pu•d vl c;u lizar qu xlst n 3JO r islr os y
Lspondi loli t Is}. cir. s (Normal, 11 rn1a y 1
/ '"
4h 41h II IIQII 1ft I /4
ff NII I /0 lln4
4Q 100
l'J h~/
,,.i,,.... I IIUt1
.
I 10
.,, ,,,~ I ill ~ .. II
.,,o ,,,,
'1 ~,IJf
hi/
II f~M
111-·m
J\Jll ~
ft 4 I
I I 114
JI 'JI
,~,
1144ft
lh lh
4111111
~. J Ill I
Ill JJ
11 ft/ II
11ft MIi I
I 111111
•w u1, IN ll/n
I~ IJUU
◄◄ II~
,,. ,m, II AIW
U 1111 ,,, j tl,f
I 1800
II I 411
r4 ,ei JII II rJ
I II" JI 111 111 ◄ J
•'i 111,j I J IIU
lll'JI 11 1,u I Ill JOII
◄I WU< I j til / 44"111 IJ INIJ
~ I UII J81J(Jl1 I 4f -~~
ill I JI I ◄ /ft/
1 I JI 11/ 4 ◄
11 44/ II Nt•, lJ 111
4~ ,~, •• 1/11 114 •M
,~' J 11~ nn
Jj . 4, IJ "~ '
ll IJ/ 4 41 ",I J
fl '°PIO lllit" ◄ fi
/ft"''
"'"" IJ I 4'
- - - - - - - -- ...
apitulo 6: Aplicaciones con difer t .
en es tecmcas de mineria de datos
..,. Oass_d
@ Derive as Set
Setllngs Annotations
4. Afiada ahora un nodo Type, el cual permitira elegir los valores de entrada y el valor de
objetivo. Para ello, seleccione un nodo Type de la categorfa Field Ops y conectelo con
el nodo Derive Class_d como se muestra la figura siguiente. Observe, ademas, que el
parametro de salida es Class_d y no Class, debido a queen un paso anterior este habfa
sido cambiado med iante el nodo Derive.
Class_columna
@ L---------
i► I Read Values Clear Values Clear All Values
@ Type Values
(26 14 792
MIS;,;; r Chetk
None
f
, 1n
Otrecuon
d • S1 o'e Co et
oe
·a os o
e os q e se e cuen ran en la categoria od
- ..,":o0, CO" ec e cada no d II
e e os con el nodo Sample co
. ,.
,·1I;j1-.
'I 1•11 I ltflilr, 'dl, 11.i/ 1,I I It, 1•11, I 11, 1I '
7 I let I ' 111
rl, ,, " 11 , v..,.1, , , 11 ,, 11 , 1. , 111 I( 1, , 1, x. , 11 ,• 1r1, ",, , " 1
qll ,1p.i11 /t ,1 l,1 1Jt1tl1• ',llp1·tl<11
llJl dl,1111,11111• I'll
ti• fl I It.I di• l,1 p1 ,l.ll ,I Mnclflh, I I •,rill, ,,, v111•lv,1
11
c1I oclP HI, lio1g,1 rile 1•11 1·1 l,"l ,11 ti ·n·rlu, y
11
,,.1,.lc 11 111 l.i L p, 11·111I x,11111• I fl1• 1, , r111 •v.irrn, 111 ,.
nu ,1p,11r 1co11J11 ll.itr1.i11t1• c 11 l,1 p11rt,, 111 p,·rl, 1
di• 1,1 pt •,tc11 ti Mod, I•,. 1.i v •rll,111,1 d1·IH• ••,t,1r
( 1, ,t
d1 p11 t,1 ch 1 l,1 •,l1 ul,•nl · 111,1111 •1,1 :
8 J\11,1d111m 1111l'V rH clc .irnph' y c < 11(•c I Pio um 1·1 11 odo ( Id'.', ulurnn. A ICJ ,, ·vuicJ h· P,,J
dohl1• c.11 ,11110d .irnr>lt• l 1111{1< 11,c• 10 1, v,-1IOfC!', qw· ,,,. rnur•,,lrt1n <·n lo ,,lgul ,~t. ft lffr-~ •
.. IJ 110 d prurh
•J ,lrnpti, r r,mpl
I(,,rnr,lr I 1r I
.J 1 lri n
------......... ~ 6&11tnQ',
OV r
/lnnc,t llorie
r ar1tfll
9- Conect
1nodo Sampl con los diamantes que se han generado tanto para cl modclo
cs.a c.omo para el mode lo CRT y luego conecte un nodo de Analysis a cada uno d lloc,.
r· .. -
e +--. c,.,,_,
---~ c .
C,Jass_d I SC-Cfa%_d
:u:.i~'3 de pruabaJ ~.,
Ctaes_d
~
1
.• , , l 1111 ld l.i111,11H1 ll. 1•,•· dd1•l11111l111ll)
I. 1u1' , l ) r 11 ,,1•1•l• 1
l\t Hh I l11 ) lll \ I ,1 llHllh•h II\\ t•·· I 111111.d dt• dd11d11 •' llll l I
' ll I ill • II
di!
II
lI t 't •,Ult, hll nutput fh•ld I 1•,•, d
Il lltllP HIil J $ \. I n,•, d vVltl1 d
\.lltltd .II
Wr 1m1 l ,•
it,t 11 ,qi
Cla s_d II
d
1111 t t I
W1111u
I nt.11
Class_d
An IV I
l · f rt1 1 n qu , ,<' ncu nt
r . ul t l , y hi . con l I ra en la categorfa Field Ops para poder
0 con I nodo Clas
'
l1• p 1rt, 1 n · s_co1umn . Despues,
,
haga
lngr los va lores mostrados en la siguiente figura.
Ir rhllon
• rr In nd 1 1 rr,iln, t I rnd v lldatton
V lue - [•1_Entrenar"
___ _,Vc.1lue - f 2_Prueba"---l
_ _ _ _ ] value
lu
rt e d 123•567 : Oen r te
13. Enl ce I nodo de partici6n con el nodo Select, haga en el doble clic e ingrese las
valores como se muestra en la figura siguiente. Tome en cuenta que puede agregar un
nodo Ta bl para ver la informacion implicada.
•r m,a SelKt
-- -----
@
. ----~-- Mode. <•) Include , _; Discard
rt1Uon
·r Condition
~. Annotations I
Table
Settings
L t,ppty J Beset
OK cancel
--
I.
r I I It1 1
I! ~ 111.in I I 1)1 tin d, Pill lll ll 11,11 tlt)dc ) ( I, l I, li11 • <) 11. 1 ,I cl q~)l1 • ( llr
1111 I ti I I 1111drJ ·,, Ir rt
il1Hp11 I 1·, .ilu,, · 11)1)· l1.1d11• 11 11 l.1·,111111 111, 11 lit.I ,
1
I ) 1111 htlf
I ll I '"
I •U111ilh111
Cap,tu1o 6: Aplicaciones con di /
ferentes tecnicas de rnineria de datos 219
_ ___....._ ~ ~c~
~ C5.0
Partition
Sele c t ~
~.T
C&RTree
18. Conecte dos nodos Analysis para poder observar la precision de las resultados con
respect o a cada uno de las modelos.
~c~
® ------► @ ~5.0
Analysis
"''"' ~
Partition
C&RTree Analysis
19· Ahora anal ice las resultados que se han obtenido del diamante CS.O. Para ello, haga
doble clic al nodo Analysis que esta conectado con el diamante antes mencionado.
~era que se ha obtenido un 81,82 % de prediccion correcta y un 18,18 % de manera
incorrecta. A partir de ello, podra deducir, entonces, que el uso de un nodo de partici6n
en la selecci6n de las datos ha de mejorar las resultados con respecto al nodo Sample.
GEiie fdll
1=7o11apse All j~ Eipand All
B Results for output field Class_d
t~ 8 com arf~ SC-Class d with Cl!!SS_d
C5.0 Analysis 'Partition· 2_Prueba :~
Correct 63 81,82%
Wrong 1◄ 18,18%
Total 77
I) t mlnlns • Mtnerla d dato
. 0 1 <' 1 tH y l m J) 0 lin I n lie los resultados que se han obtenido dei dia
• r ' , . ' rna nte
R1_l1.ir 1 II , lldg dobl cli c n I nodo An alysis que esta c_onecta_do con el diarnante
i1nll rn 11 I nr do. D sa m n ra, tal c~m-~ mu estra la figura s1gui~nte, Podra Ver
(JLI h obt nido un 76,62 % de pred1cc1on correcta y un 23,38 % incorrecta. A
µ 11 tir d to, podr d ducir, entonces, que el uso de un nodo de partici6n en la
I 16n d lo datos h d m jorar los resultados con res pecto al nodo Sample.
0
6.14 - ....~,...,, n. 14: VaJi la i n cn1zada
Ant r liz r un jemplo al respecto, se dara una pequena explicaci6n de lo que es la
v lid ci6n cruz d . n I validaci6n cruzada el metodo realiza una partici6n aleatoria de
d t p r formar k subconjuntos disjuntos de aproximadamente igual tamano. Cada
p rH 16n utiliz dapar valuarlosclasificadoresgeneradosapartirlosk- lgruposrestantes.
i I p rtici6n str tific da, cada uno de los subconjuntos contiene aproximadamente la
ml rn r I ci6n d I s qu los d tos originales (Borra & Ciaccio, 2005) .
ri I t bl Int rlor s pu d obs rvar 10 iteraciones (subgrupos) . De ca da iteracion 9
ub rupo v n u r P ra I ntr namiento del modelo y un subgrupo servira · ' corno
lc1 prn b d I ml mo.
. . , n hecha
r s v c I ul r coma I m di ritmetica de los errores de cada 1teracio
t t n run uni or ult do.
0
n · nd m Jor I nc pto nt s m ncionado, suponga que t,e · ne a20°
I
H qu 200
r I lro Y h;i r ~117 do 10 p rti Ion . sto qui r d ir qu c da partici6n ten~r 0
80
r I ro Y n d un d I it ra Ion s v n h u r 9 subgrupos (es dec1r,/ ara
re' ,I tr ) p, r, I ntr 'n "i ·nto d I moci lo Yun ub rupo ( s decir, 200 registros P
li1 pr u b 1 d I m d I .
r ,., V1lid, tion un t nl qu redes
' h uliliz do con m t odos basados en
n 1W II 11 (lh llK & I, ,o ; Liu
ol., 2008), N ar st N ighbors, Fuzzy, etc.
.. I
Ill ',lllil'lllptl'
rf l I
-
l1 I
-- -~
k
- I]
~ ,-
10
--~ =--- ·-=
1 1 s 11 I 8 I I()
,1
- - I=
'1 1, I H I) I()
I
11
- -
-- -
I R ') I()
1- ~
-
-
l 2 3
,_ '1
-
l
1,
-
I H I) I()
--
2
-
I
0 I l I H 'J !fl
- ,- 1~ - -
1 ~ 4 r I I) I()
r Il l
1 2 tl b 7 'l
·----
1 2 '1 ( I I rl
1
Despues de haber realizado esta explicaci6n, n c saria parr r liLM I j ,nr,lo rl
validaci6n cruzada, se va a usar el archive que s ncu ntra n I,, rp l 1/prt lir ,1
trece_integraci6n_datos_drug. Luego, proceda abrir I stream d nombr int ra i6n
de_farmacos_libro y guardelo con el nombre integraci6n_d.., _f 1111dcos lillro, till como
se muestra la figura siguiente.
1}\
"El ~
----------IE\
NA_K ®
• l"bro
1
Figura 6.16 Archive integraci6n_de_farmacos -
. mo ,·........na de datos
Da a mm ...o - •-
..,, CV
- - - - - 1... ~
C
pitulo 6:, plical ion ron d'f
L--~---~--~--~=.:__:_'~e'.:.'r...:e~n~te:=s~tecnicas de rnineria de dalos
/ 223
desea saber cual es la variable mas importante . ,.
3 51 st
,nfenor Models. En ella podra observar que la va~:b~ e modelo, d_1ri~ase a la pestafia
ue gen r6 n un nodo Derive Na K L e _(c~mpo) mas 1mportante es la
5
~re!>iOn rtenal). - . a segunda mas importante es la variable BP
,,..._· -----~
Model Viewer Summa Sellin s A ons
C5.0CV
c~
CV
- B· comparing $C-Drug with Drug
l Correct
L... wrong
Total
2.200 1 00%
2.200
o 0%
Analysis
~ 8£lle ,~
orug_derlvado i Collapse All I' Expand All J
9 ... Results for output field Drug
e . comparing $C-Drug with Drug
: Correct 199 99,5%
L... Wrong 1 0,5%
Total 200
En I figura sigu iente de la pa rte inferior se observa que la precision que se ha obtenido
d I 100 %. Ello indica que, si se hace uso de una validacion cruzada, ent onces, los
r su ltados van a mejorar.
C5.0CV
oa r1do
, ,11 c•~to, c, r •,1l1zr1r n lo,; ~>igtJicnt s pases:
• 1rnple
•;Ir.elude· ,rnple
,e mpl~ Flrtt
1-ln-n
• R,Mom'I>
l'!J M· 11mum arnplw ta,
----+--e IRedueclon de d
Para cambiar el nombre del nodo Sample, vaya a la pestana Annotations y ponga el
nombre Reducci6n de datos. Si desea observar las datos que se han obtenido, agregue
un nodo Table de la categorfa Output.
2- Conecte al nodo Sample llamada Reducci6n de datos con un nodo cs.a de la categorfa
Modeling. Luego, haga doble clic al nodo cs.a y coloque los valores coma se muestra
la figura siguiente. En el nombre del modelo ponga RDCS.0 y active el casillero Cross
validation . Dejelo por defecto en 10 particiones y, finalmente, haga clic en el bot6n
Execute. A partir de ello, se va a generar un nodo diamante con el nombre RDCS.O.
--
Model name: O Auto 0 custom LR:::..D.;...C5:..:...o_ _ _ _ _ _ _---!
0 u se partitioned data
r··· .......... Output type: @ Decision tree O Rule set
------►► &; O Group symbolics
O u se boosting J11r ro
RDC5.0_ Number of folds.
0 cross-validate
@ Simple O Expert
Mode:
1'J I r 1 , ff
II ,lttlrt!J tJtrtrrt rt
,, .. f
4. Pr v rI Ile
p w r.
P.IJ< ,.o
I If r, ) g,n11ai. t/VJw,
1),1/
,..-..---,---,---,
11 , rJ,~ r/ ,~ ~.
I,, , , 'l
/
<on d,t r nip te ni a cl<' minrria cle datos 227
Drug
·-- .. - .
'' Noda O
'
'' Categorfa % n
''
'drugA 13,333 4
: ■ drugs 0,000 0
: ■ drugC 13,333 4
: ■ drugX 26,667 B
'' dtugY 46,667 14
:___________ T________
: Total 100,000 30
t::
NA_K
I
<=
I
14,341 >14,341
I
Noda 1 Noda 7
Categorfa % n Categorfa % n
drugA 0,000 0
6. Como s1gu1ente
. . . , de datos con el nodo diamante
paso, conecte e 1 no do 2 Re d ucc1on
Rocs.0_2.
2 Reduccion de datos
@I
\::I Simple
sampleme lh Od t:\ O Complex
s1m,1lo Samplo
Mode: Ci) Include sample 0 Discard sample
IE\
\51
Type
---i1
-.•e
. 12Reducclon d_e ~a
sample ® First
0 1-ln-n
2200J:l
() Random%
r , rri
rr J
T
Settlngs 1 Annotations
[Ejl r Cancel )
dato
con un n ly I
m nt antes m ncionado con un nodo 1 bl
~
/ TblO
I!!\ -----t►► e ► C ► B]
~
2 R ducc1on de d tos RDC5 0_2
T
a oble chc en el nodo Analysis para poder visualizar la prec1s16n de los aatos de
rueba coma se muestra en la figura siguiente. Note en ella que la precision es de un
9,55 , hay un margen de error de 10,45 %.
G E1te fd1t
~ ,~
RDC5 0_2
- ►
1
Wrong
· Total
230
2 200
~Elle • fdn
✓~ 1
2
Na
0.693
0.678
Drug
0.055 drugA
0.041 drugY
"
NA_K $C-Oru11
12 509 dru!)A
$CC-C,ru
0 556 •
ROC50 16 603 drugY 0 789
3 0538 0 070 drugA
4 7 713 drugA 0 556
0 636 0068 drugA
5 9 283 drugA 0 556
0690 0 056 drug)(
6 12.412 drug)( 0600
0730 0025 drugY
c~ 7 0814 29182 drugY 0 789
0 061 drug)(
ROC50 8 0681 13 411 drug)( 0 600
0.040 drugY
g 0 650 17 058 drugY 0 7B9
0.045 drugs
10 0.853 14 475 drugY 0 789
0 041 drugY
11 0 627 20 831 drugY 0 789
0 051 drug)(
[i] 12
13
14
0 736
0.584
0889
0 068 drugc
o 076 drugs
12 218 drug)(
10840 drugC
7 636 drugA
osoo
O556
0 556
0 029 drugY
/ Table 15 0813 30 635 drugY 0 789
Q023 drugY 0 789
16 0580 34 961 drugY
0 025 drugY
17 0 656 23.151 drugY 0 789
(~ 0 075 drugA
18 0 829 8 736 drugA 0 556
0.065 drug)(
!ro<:5 0_2 18 0.621 12. 736 drug)( 0 600
20 0 038 drugY
0 840 16.387 drugY 0 789
0 031 drugy
27 100 drugY 0 789 •
/
Capftulo 6: pht d< lon<'s c 011 dil
, e, e11t . te ni ac; de mincria de d to
229
Analyiis of (Drug] 11
E,dlt
11 . Si desea acceder a la informaci6n de los resultados por cada uno de los campos,
haga doble die en el nodo An alysis yen la parte inferior agregue todos los campos.
Despues, presione el bot6n OK y luego Execute.
C ..,.. Analysis
CR ml [ ~--
~ Analyze $C-Drug
1111, II, 1111 ',1'I V,11 ""' I' 11, 1111111 II II t dll
1;1 /\'1111,1 v11,•lv.1 ,I"·" dt1lll1 1 1111 ,ii 1111tl l 1\11,dy•,I•, y di IIVt l.1 •, ( .i•,lll,1 1, ., gun 01110 v en
ILi 11,,111.1 •,IHIII •11 !1•,
/\11 Iv I
1
llllpill I >\tllllil 111111
LUego, haga clic en. I b t ' n ut • PJ11 1 1 1,i lllld v 1 11l.111t1 t u11111
13. la rno strada en la figur nt n~ldl 11 qu, Id 111 1 l•.lu11 (I ,1 1
I: Collapse All
8 Results for output field Drug
El-Overall Results
El Comparln $C-Dru with Drug
1
j
I. .
Correct 1.970 89,55
Wrong 230 10,45
Total 2.200
e.
1
·Coincidence Matrix for $C-Otu row
drug.A, dru
how tu 11 )
r1n,
I drugA 226 0 0
drugB 161 0 0
L ... drugC o 199 o
drug)( 0 0 565
dru Y 0 0 0
~ Perfo;~~;ce Evalu~t'.~~m
I drugc 2,321
I' drugX
dru Y
1,304
0,741
El· Confld~ Values Re_port for $C Dru
Range
Mean Correct
Mean Incorrect
Always Correct Abov 0,1 8 (D
Always Incorrect 8 low O,' (0
95, 15% Ac cur cy Abov
2 OFold Correct Above _ _ _ 0 1( , 6
Data mining - Mineria de datos
Analysis
~ ~alyze SC-Drug
Output name @ Auto 0 CuStom
l.. Output to screen 0 Output to file r
Guarda·
► Execute 8Pply
15. En el nombre de archivo ponga la ruta con la cual se va ha guardar el archivo / e'" e
Filetype coloque la extension html. Despues, pulse el bot6n Guardar y, por ult , ,o,
presionar el baton Execute para que se genere el archivo en forma to html.
C CJ file:///E:/DAZA_UBRO_M1NERIADEDATOS/libro/profundiza
Results for output field Drng I
Overall Results
6.16
ca.so n. 16: R gla de a ociaci6n y dependencia
para la explicac,on de es~e caso, se tomara en cuenta lo dado par el Clementine, en el
ual este e1emplo se refiere a datos ficticios que describen el contenido de las cestas
~e supermercados (es decir, colecciones de artfculos comprados juntas) y las datos
ersonales del comprador, adquiridos a traves de un programa de fidelizaci6n. El objetivo
~e este ejercicio es descubrir grupos de clientes que compren productos similares y que
se puedan caracterizar demograficamente a partir de criterios coma edad, ingresos, etc.
Este ejemplo ilustra dos fases de la minerfa de datos:
, La asociaci6n de modelado reg la y una pantalla web que revel a vf nculos entre articu-
los comprados .
• La inducci6n de reglas CS.Ode los perfiles de las compradores de los grupos de pro-
ductos identificados.
Basket summary:
, cardid. Loyalty card identifier for customer purchasing this basket.
, value. Total purchase price of basket.
, pmethod. Method of payment for basket.
1. Como primer paso, ffjese en las relaciones que hay entre los productos q e se
comprado de la cesta. Para ello, ca rgue los datos de un archivo que se e a,
ubicado en la carpeta practica_diecis<eis_reglas_y_asociaci6n. Luego, aiiada 10 ra
var. File de la categoria Source, haga doble die y coloque los valores que se rnu ~ dc
:c~,n
en la .figura siguiente. No olvide que si desea visualizar
, los datos coma en Iose,casra,,
0
antenores, solo agregue el nodo Table de la categona Output . s
.. Buketdn
® ~ Rerresh
E IDAZA_UBRO _MINERIAOEDAT08\Jlbro\pr-.lt11ta_dteusels_reglas y :no: .:;,, Gn'IB;;•
cetdid,velue,paethod,~e-~,hoaecnm,1nc~,aqe,truitveq I fre~hll~at
- I a.1.'C"j
dA' rtr,y
~~~~~~~
e
s , So
~~~~~t~~~TJ:~Ie;~::..:.
An~n;ota;li~on
: s ~ = = = = == = = = ~
Cancel
tiPply
se ha colocado en 90
roductos, en este caso, la
I
1eo 100
0,1fa mining - Mincrfa de cl.tlO!>
ll fields
l ~JEiio () Qenerato r,
@ +
+
~~
- - . . . . . i..
:!Ello Qenera10
~,,
•beer ec. d IS
r ;..,: , f
• confacbonery Oda~"• meat • c.,nnedve Model 8e111ng9
etra,hmeat O ry fish g umma,y Anno1m1one I
Osoftdnnk - ~~:nmul etnJlt\<eg ~ Cancel J
,.,.,,,
0 20 ,qc, 00
, e!i'''1•11
100 120 1'10 I I '
100 111) 200
<apU ulo 6: Ph a ion s con diferentes tecnicas de mmeria de datos
10 posterior, use el nodo GRI. Para ello, anada un nuevo nodo Type, conec elo con
5
!nnodo var. File Y haga doble cli~ en el_. u_na vez que haya hecho es o, coloque los
atn butos como se muestra en la figura s1gu1ente y presione OK·
.,. ,,.,,,_<,!U
@
~-
Fl••lrJ Type
• r. rdld Range
# Range
Set
Flag
Flag YES/tlO
income J> Range (10200,J0
age , Range (16,50)
Wrru1tveg JeFI g T/F
Wrreahmeat Flag T/F
~ dairy Fl 11 T/F
~ cannedveg Flag T/F ro e
~ cannedmeat Flag T/F one
~ rrozenmeal Flag T/F r,o~
~ beer Flag T/F
~ wine Flag T/F
~ so1tdr1nk oe Flag T/F
IA] nsh <» Flag T/F ',. n
~ conrecbonery oe Flag T/F ',. "
6. Agregue ahora el nodo GRI de la categorfa Modeling y conectelo con el nodo Type_GRI.
Haga doble clic al nodo GRI y luego presione el bot6n Execute. Esto generara un nodo
en la parte superior derecha que nose puede desplazar al panel de desarroll o.
Model Annota~ons
field9
l~el
I 11.11.i 1,,, ,, ,,,,11, 1,11 1•, 1,l,11 11 1,1,,., d1•I 111,d" ,l 1 L l1i1µ,d rlul,1 1• '1 11 d i w,d11 q,J,..,,.
,, ,
1 , q, ,11 , ,., • . ,, ,,., , di 1, ,, 1,-1 ,p,1• 1,,.,,,, t ,,,,ri r1r)trdirr• •.<·1 f •,11 1 pi•rr,, 11 1r,j
11 111
1
11 1 11 11 11 1111 1
11'.11,d1,.,, 111'. 11 ••.,,11.111,,,, 1.d, 1111111 •.1 111111••,11,1 ,,,, L, (lp,w,1 ',1µ,,w·rt1<· I Jt1 ,1 1<·1 fu,,,1,, ,j
I .,,,.., 111,11 • 11111• c•tl I I ltl ,1·,111111 ,, • lldlldll ,,, , '<1111r11,1 U·t /l !/d, 'if• ,1d,~1Jt(•rt• 1,1rr,,, (rt•' ,I , j
1
/ 1 ,tt 111 c I ,l,1L1di1 I •111 1 t 111,r 1 ·,1•td ,, ,,I l, l % di·I ', /1/J/IOI I y r•I Yo d1 • l,1 •, / NJ•', , f'<ir fJlrq 1(J{J
1.,,1, 1, t I ,.,11d11 •,c• I I 111,pt ii I,., /1'/d, •,1• i1d'11ll1<t I· f 1/1 rtlrld I (),iµ,r•lr1dd Y H'W·L dr•', 1•nl,1LJd(y
I •,111•,1111•d1• l/11111•11• 11 1•• ,j1<1 l, 1 t•I lt1,( 1'½1 rlr•I '1/1/J/JfJf{ y r•l 'J(1,'1H % rjr, l,i', 11•<_1•',.
1
1
'·
100,0
~,
11,1.1 1(/f/,i/
111,11111111• I
•1 l111, 1111111 I
I llllbl//Jll,J i,1 411,I I
,,,,,.,
Ii/ lri,.11111• I
1,,,,..111,,,.~, 1,11 IJll,l'l/
•I ''""'
I ,ll///f/1/IIIJ
111,,.,,,,,,,. I H ,li 11h,'ill
11111•1
i,/ ,1~111
I 1111///il//#/J I, I 'l'l,11'1
111,1•111111~~,
1,,,11,,.11
'"
11 11 f)t1,l,l1 •tr1<1 rJ1 , I, •1 r<•gJI 11 ,,, 0111 ,11 ,H 1.,I , Jt 1
rr1,1•, 1 ,, ,,,, 1, /.i , ,, 1, ,1 ,, ,. , , r 1
OIJ(• ' {'
, ' J rtO ', rr11J<·', t ran I,,, ,J,,1-,,,;o
I "(• ',/•/() ..
'-,
I 111 1111 1 1 1 1 IJt fl() IJfJ'llf /( 1 1I j
I ,, ) I
11 1', 1l 11', ', 1 1rr, /!I"' 1 dd tJ,, 1 , ,, , ' • ' ',r,,1 qw• dfJ,Jr<!/ ldlt rri~,IJ', pdril
1 111111 11I 't1l111ll't I ' ,r.,1 j
I 1 'r, ,
1
111 ,d,, /.,r I 11,- 1,,,,µ,, 1,,i"" 1 1
1 111 • II ' ' ' "' d lrl ti Jdo lypr• v c.onl•r.1r•lu con r.l
1
, I r, I I I I I I' t) f I t II id I I ,
d1 //IJ(/, •,r•f, 1 1 111111 11, ir11i1••Ar, 1 I
1 YJJ V c.,unlw, < I v,dnr rk•I c,m1pn ,,r.x
' 11 JJ;IH" ,1g1Jlt•111,,,
I 11111111/ ◄
11•111•
11,,,,. () "''""
I J 11,,11•
I /'1<(11 /- I J /11,11&
111,11•
flJI• It, I .I~
fl II 1•1 ,,,,,,.
"'''" (
fJ11I
11m,w
II 1111111, 111 ,,,,,j,., ( IH,hlll
fllJ/,1/J ( J ,,,,,,.
,,,,,,.
1111110
J. ,,,
IIIUt,fll, jjl'I /lt;f,J
'"
///
Ill 'I
,,, ,,. ,,
Capitulo 6: Aplicaciones con diferentes tA . d . ,
t:Cnicas e minena de datos
9. Agregue ahora un nodo SetToFlag y conectelo con el nodo Type_GRI. Despues, haga
doble clic en el nod~ _s~tToFlag Y coloque los valores, tal como se muestra la figu ra
siguiente. Esto perm1tira crear dos nuevos atributos.
SetToFl119
~
►~ @ [ - -
[@][®]
sex
~
Setflelds:
Create flag fields:
!ii> sex ....[] se~ F )(
~elds
It] Fleld name extension· I
Add as: 0 Suffix O Prefix
I
sex_M
~
Avallable set values:
~]
(3
~®!
[setToFlag True value: IT I False value: IF I
0 Aggregate keys:
,, -
~
...I
X
10. Luego, anada un nodo Filter que se encuentra en la cat egorfa Field Ops y conecte lo
con el nodo SetToFlag. Despues, haga doble clic al nodo Filter y elimine el cam po sex,
coma se muestra la figura siguiente.
Filter
@I
11 Field [yj Fields· 20 In, 1 filtered, Orenamed, 1
® Filter
freshmeat
dairy
FIiter 1 Annotations
[ Can~ I ] [ pply ese
)IJ O llata mining ~ Mlnerla de dato
11 . Vu ~Iv '~adir un nodo Type y coloque como parametros de salida los carnpos
S x M y S · x F como se muestra la figura siguiente. Despues, agregue un nodo GR!
con ct lo co~ el ultimo nodo Type que se ha creado, haga doble cl ic en el nodo GR;
y pul x cut .
Type
®[
v~J
~
_:J '!J [► Read Values Clear Values Clear All
Field Type f Va~ Missing Check DlrecUon
11 Field value ,
Range (10 007,4 None ~ None
Set CARO,C,A None ~
~··"'''
homeown
Income
Flag
~ Range
YES/NO
(10200.JO
None
None
~
~
None
None
None
ldG
age ~ Range (16,50] None ~ None
~ frultveg 09 Flag T/F None '.. In
~ freahmeat O.Flag T/F None '..In
dairy 09 Flag T/F None '.. In
cannedveg 09 Flag TIF None '.. In
~
~ cannedmeat 09 Flag T/F None '.. In
frozenmeal 09 Flag T/F None '.. In
• ~ beer
[;s] Wine
0. Flag
09 Flag
T/F None '.. In
Type.__ T/F None '.. In
~ sondrlnk 09 Flag
~ fleh o•
Flag
IA] confectionery o. Flag
T/F
T/F
None
None
'.. In
'.. In
T/F None '.. In
~ sex_F 09 Flag
A sex_M 09 Flag
None 0 Out
None Q Out
En la figura siguiente seven los resultados y se puede observar que se han generado
reglas tanto para el sexo masculino coma para el sexo femenino. Asf, se tiene en total
61 reglas, una cantidad distinta al caso anterior en el que solo hab fa 32. Un detalle
que se puede advertir es que las personas que compran cerveza y tamb ien adquieren
vegetales enlatados y comida congelada son de sexo masculino. Esto sucede en un
total de 146 casos que representa el 14,6 % del support, de los cuales se cumple el
96,58 % de las veces. Tambien es posible notar que las personas que compran vino Y
confiterfa son de sexo femenino en 144 de los casos, lo que representa el 14,4 % del
support, de los cuales se cumple el 86,81 % de las veces.
hora haga lo mismo tomando el cam po «modo de pago» coma salida y dejando a
12· ~s dernas valores en su estado normal. Para ello, anada un nodo Type y conectelo al
nodo var. File Basket sln.
® ~@]
,. -
Field
. [►
r
Re dValuea
l'tPe
Clear Values
Values
I Clear All Values
MISslng
j
Check Direction
Range
Range
110150, 109884}
cRead>
None
None
None
~ None
-
Set CARD,CASH,CH None C) Out
sex Set F,M None ~ None
homeown Flag YES/NO None ~ None
Income , Range 110200,300001 None ~ None
age , Range 11B,50J None ~ None
Basktlsln ~ frultv1!g Flag T/F None '-.. In
~ rreahmaa1 O.Flag T/F None '-.. In
00 dairy Flag T/F None '-.. In
Wcannettveg o» Flag T/F None '-.. In
~ cannedmeat Flag T/F None '-.. In
frozenmaal o» Flag T/F None '-.. In
~ baer Flag TIF None '-.. In
w1ne oe Flag T/F None '-.. In
~ softdrlnk oe Flag T/F None '-.. In
00 flsh 0t1 Flag T/F None '-.. In
13. Como interesa generar regl as p ara cada una de las formas de pago, af\ada un nodo
SetToFlag de la categorfa Field Ops y conectelo con el nodo Type_ pago. Despues,
haga dos veces doble clic en el nodo SetToFlag e ingrese las valores, tal como se
ve en la figura.
SetToFlag
1B.
\:El
Type_GRI
SetroFlag ® '-------- -------'-'"'"--1
®
Available set values:
♦
♦
l:+l
Type_Pago SetToFlag (3
Annotations
Cancel c-;P~ Reset
242 Data mining - Mineria de datos
14. Anada ahora un nodo Filter de la categorfa Field Ops, conectelo con el nodo SetToFla
e ingrese los valores que se muestran en la figura s_
i guiente. Note queen ella se elirnin!
el campo pmethod, debido a que se va a usar el tlpo de pago por separado.
FIiier 1 er
g
®
Fields 21 In, 1 filtered, Orenamed, 20
---
i;._--=---==F-le....::ld' - - - - - - r - - -F
- llter T Field
cardld cardld
value value
' j pmethod : ~-
--t11►...- i/;!\i
®
--
sex sex
I'2.f, homeown homeown
etToFlag L. FIiier __.] Income
age - -+
Income
age
-
frultveg frultveg
reshmeat fre shm eat
dairy dairy
OK [ Cancel 1 l 8PPIY
15. Agregue otro nodo Type de la categoria Field Ops y conectelo con el nodo Filter.
Despues, haga doble clic en el nodo Type y coloque los valores que seven en la Agura
Type
®
,. Clo rValue f Cl r All V, lu
Field
cardld 7 Range
Type V· IUII
[101 ',fJ, 1II
T Ml Ing INon h ck Dir ct1on
~ None
,.
value , R nge •P 9• Non 0 Nun
~ sex Set r i t~onu ~ Non
8
homeown Flag fl:' ltJr, Non 0 tlon11
1 Income ~ Range II flJOIJ 11 Nnnu
Type age , Range [1 ,'.iOI Non
@ frultveg rt g r,r Non In
~ fre shmerd Ft !1 l 1I Non J In
~ d try rt g 1/f Non In
~ c nnedv g ti g r,r tJun
~ c nn dm •I fl 11 l ,r llunf
frozenm , t fl ,g 1/f tfani
~b r I U
~Jwtn
fl "
,, tJon•
t~oru,
~ on.dunk f I ,g in tlot11
L.\I nsh Ft g n tlon
b\J cont cuon ry rt II TII l~llr,t
~ pmethod_C fl g Tl Non,
~ l)m thod_C rt g Tlf tlon
/1, pmoltlOd C fl
• view curr nt n&td v, wunu
" I lur,
/
_______________0_n~<H
_ f_,_r_e_nh,,; t · < nic, s dci mineria de ctato 243
H & pmethod_CHEQUE
49
Support % Confidence %
cannedvag
7,3 53,42
cannadmeat
pmethod_CASH frultveg
cannedveg 1,6 68,75
canned meat
©
od_CARD &
pmethod_CASH freshmeat
cannedveg
wine
1,8 66,67
pm ethod_CAS H dairy
sondrlnk 1, 1 72,73
confectionery
pmethod_CASH cannedmeat
frozenmeal 4,0 55,0
beer
pmethod_CASH fruitveg
freshmeat 1,2 66,67
frozenmeal
pmethod_CASH freshmeat
11 Net !:GO
5,5 50,91
ca nne dveg
pmethod_CASH dairy
2 /\ con 1nu c16n, r, u un nodo Typ · y con ·c clo con El nodo,.. p:;~. L Kg0, ;:;e,;; 000 e
clic I nodo lyp y pon lo v lor <, I corno ·mu.:~ ra n la fig ;ra : ,g J '=r ~e. Er i;:;~;;
m1 m fi ur V qu lo qu. ' ' ii r ~111,.rndo r cambiar ~1T/pE rJE: c;:_;r; ;.; ro r;e 0:
c mpo I Typ Fl , d b1do qu c; os. c:.ampor: oman ~fJIO do: 1alort::. Po" ~ o, :r:
I cc1on n todo lo CtJmpo~, · hac · clic rJ .r _cho y lu •go ,.e 12:coge I;; ope ~ Fag
► •«"•, f ,It ,v u•
ftr••
., ... 1'J-
.,,. I J..
•,,IJ 11 ..
.. ,, ~.
.. ~ ]-
i,1t ,,i ..
/
aciones ron diferentes tecnicas de mineria de datos 245
-------
corno siguiente paso, pon,ga como para metro de salida el cam po churn y coloque a los
3
· dernas campos coma parametros de entrada.
Range ~o 10536051 None 1,1. In
~ Range 11 749199854 None ~In
, Range 12 734367509 None ~In
, Range 11 011600911 None ~ In
~ Range 12 701361212 None "\. In
~ Range
Set
Flag
12 197224577
,. ,
1/U
.. None
None
None
"\.In
"\. In
· Out
Form;;! .Allnotat1ons
4. Anada un nodo Feature Select de la categorfa Modeling y unalo con el nodo Type.
Luego, haga doble die en el nodo Feature Select y presione el bot6n Execute.
Aparecera, entonces, un nodo diamante en la parte superior derecha, el cual debera
arrastrar al panel de desarrollo.
ct.um
@ 0:E;.-,m_p_o_rta_n_t- ---,
[J [±]' Marg nal !cu off 0,95 :
F===::;:=!
0 ~un·mportant jcU1G:r! 0,9:.;
--·= ,_ ---~ ,a
- .:, -- =- -::,
;-
e
C
con uaci6n, real1ce una pequena auditoria de los da os. Pa'c e 2-=== ~- -~--
Da ..a Audit de la categoria Output y conectelo con e oao Fi'~e~ ge-e-a::: e
1 =-=
a ora ene el nambre caracteristicas importantes. Deso es, ag2 .... .., c: ca - :.:::: ==
a di aria de las datas y presione el bo 6n Execute para deso egar ~ -a . 2-:a-2 2- =
e se mos raran algunas resultados por cada cam po como va l '"ES ,.....a -- s =.:
-,2.:
i il'T'os, desviaci6n estandar y cantidad de valores. E la par:e ·,....ce_ - _e 5 -a~::::
aga cl1c en la pestaf\a Quality y coloque sobre la columna := c --::: e:e. _,es:_::.:
haga doble die para ordenarlo de menor a mayor. De esa rna eo eo a e ....2--:.::
les al a valores. Segun la figura siguiente, el campo logtoll solo e e e - ,,::1 -: :e =~=
1alores, las cuales suman un total de mil.
I
Ufi.)oi
-
·-~--
Ot.,..
-
e/'bW
,_
,_
o......
,_--
Fat
0-
,_
·--
],_
F-
I-
', ,,.
21
9,-
--·- :
-
,_
f-
.. -- ,._
Fad
,_,
0
ONor-.
-- ·-·-"-
II •I Il I l )~ ·1 I) • p ify
n Hl l.
o. Coloque ahora los valores, tal como se muestra en la figura siguiente. En la opcion
Impute when determine que se tomen tanto los valores blancos como los nulos
(Blank & Null Values) . Al mismo tiempo, en el Impute Fixed Values establezca que
se considere la media (Mean). La selecci6n de la media asegura que los valores
imputados no afecten negativamente a la de todos los valores de los datos globales.
Impute Method:
l-1
[ Fixed ..,. ]
Impute Fixed Values
OK Cancel j[ !:J.elp
_d
/
Capitulo 6: Apli acionec; con d'f
1 .
erentes tecn1ca de mineria de datos 249
~
Extremes Action Impute
Missing Values [Iller Node ---1
0'-
t-1-on_e_ _....,;,.;;,,;;.:;,___ _ _...,J,._B-la_n....
k -:-&--I
N
Mlismg Values Select Node ONone Never
------ ONone Never
ONone Never
6 None Never
Never
ONone Never
Never
Never
Never
4 None Never
~ Range 2 0 None Never
~ Range 11 3 None Never
, Range 8 1 None Never
Ran e 20 4 None Never
13. Haga die en el bot6n OK para generar el supernodo que debera unir despues con el nodo
Filter de nombre Caracterfsticas importantes, tal coma se muestra en la figura siguiente.
···-······-····1
i
I
f' i
•
!81i1
l
!I
!...churn___ !
----◄►► @ ----11►► @
telco.sav c,ra,t"'T" tmpo.. Missing Value lmputa..
churn 27 Fields
Aun I n
ll, I
I 11,
l l 111
/
Capitulo 6: Aplicaciones con diferentPs t"' . 1 d .
""c n a e m111C'ria <IP rl;it o.., 2'> I
O@
churn
------► @
.. ,..
telco.sav
.,..,.,vl"m'"" fchurn
17. Si desea analizar un poco la informaci6n que provee el nodo diamante churn, haga
doble clic en el. Asf, podra observar en la pestana Summary cuales han sido escogidos
como las valores de entrada asi coma el campo objetivo, el cual, en este caso, es churn.
chum
~ - - - - - - - 1 , --,[=G=
~=E=lle= =O= Q=
en=e~ra-te~~=:~::~
- ~- - -
lL: .,
18. Sise ubica en la pestaf\a Advanced, puede abservar que se han incluida las 1000 cases.
Sin embargo, con respecta a las casos perdidos nose ha incluido ningun elemento.
chum ~ . ,..j
,--- ..
r GEiie-- .
Qenerate
@I-- - ·- - -
f@ffi
l.l
[!I
...
Case Processing Summary
,-.
Unweighted Cases(a) N Percent
Included in Analysis 1000 I 00,0
Selected Cases Missing Cases 0 ,0
Total 1000 100,0
Unselected Cases 0 ,0
Total 1000 100,0
a. If weight is in effect, see classification table for the total number of
cases.
.~
No 0
Yes
◄ I
I
I ...
~
~mmary
I
Advanced ~__Settln~ I ►
Annotations
--
~
- -
- -
l OK 11 Cancel
I [ ~ply] [ Reset
l
Ille a cl{• m111P1 lad(• rlato s ?,•>~
, -
C~sification Table(a,b)
Predicted
churn
ObsPrved Pertentage Correct
·-
No Yes
•- - -
No l 726 1 0 100,0
' churn -
rn. Fin Imnte, se genera una matriz de correlaci6n con cada una de las variables en cada
uno d los pasos, tal coma se muestra en la figura siguiente.
I [It• O!l•n•••I~
IV
•
,__ ,- -
Ih. Vanab!0:1) cntercd on step 8 lrunc
Comilatlon Matrix
Con.ttanl t.enuro Conruml wnuro equlp(l) Constant t.enure eq~(l) lnt.ernet(l) callcard (l) volce(l) eq,Joy card:mon w..:
tantll"II
!
I
I
I
-
1,000
tratamiento. La camara soporta cuatro tipos de trdtam,..,nto (0, 1(J1, J<JJ, -~,/~ ! 1 '/:,
Se pretende predec1r la potenc1a segun el tiernpo y Pl rr,r,to <Jr I,,·, 1:,ri:,r;I, ·, h ,,, , ,,,
se sugiere utilizar regresi6n. En funci6n de C1sto, s van a rr-::,l11;u l<r, A~ w r '', ,,,', ,,
1. Como primer paso, conecte el nodo var. ~ilr> con IO'j d..Jt<J', qw.: ',<• ' ' 1• ,
camaraln
® : Refresh
E·\DAZA_LIBRO_MINERIAOEDATQ8\hbrr,1.prc1c1Jca_d1ri,.lr11Jev
Invalid characters
• Dis< ard Replac I! witt,
Encoding
[ Stream derau11 .. Delima, SVrnbol
Dellmllers
Unee ltJ ~l an for tfPll
()urJte
r.,, Newline Other
lri111 quot
I J Non printing charatter I rrJ
IJCIUbl
.AJlow multiple blank doltrr11t1ir
. Si desea ver
• , los datos, agregue un no d o Table co , IO
2 continuac1on, haga doble clic en el . ' necte con el nodo var File y, a
pnmero. ·
T le
1
;
-=r
n--7nme Power Temperature
__l
· 10 1059
1059
259
259
Uptime Status Outcome
404
404
0
0
0
0
4 2 1059 259 404 0 0
3 1059 259 0 404 0 0
5 4 1059 259 0 404 0 0
6 5 1059 259 0 404 0 0
6 1059 259 0 404 0 0
7
7 1059 259 0 404 0 0
8
0 404 0 0
9 -~ 8 1059 259
0 404 0 0
10 9 1059 259
0 404 0 0
11 10 1059 259
0 404 0 0
12 11 1059 259
0 404 0 0
13 12 1059 259
0 404 0 0
~
13 1059 259
0 404 0 0
14 1059 259 0
0 404 0
15 1059 259 0
0 404 0
16 1059 259
~
0 404 0 0
17 1059 259 0
0 404 0
18 1059 259
0 404 0
19 1059 259
® 20
Table
j
Annotations
----
- Agregue un nodo Type, conectelo con el nodo var. File y coloque los valores como se
3
muestra la figura siguiente, en la cual se observa que el parametro potencia ha sido
considerado como valor de salida y los otros parametros coma valores de entrada.
►
Type
~--
® ( ►Read Values I~ 1ear V1lue I Clear All Values
~-j ll119tlnQ Chacl- Dlf ctan
V.ilues ",.In
Type_ None
-,o.2oeI
T e Time
7 Range 1640, 11821
None
~In
Out
~ Range None
◊ Power 1242,3291 ~In
~ Range None
◊ Temperature 10.11 ~In
~ Range None
◊ Pressure 1104,4491 ",. In
◊ UpUme
J> Range 10,3031
None
~In
◊Status
J> Range [0,303I
None
~ Range
◊Outcome
-
~ View current ne1ds
----
--, , View unused Oeld settings
[o.Q(~_
f di Ill llitl
®
I__
•
...
rvpu
l'tJWt r
I Bl
IA11 Iv 1
1••
l'tJWt I
t. l',11,1 .111,dl ·.11 111, IH 1( 11 111 ,,, lo•, 1,••,ttll,Hlc ,, 1>bt1 nld l \ li.ig.i cl bl < Ii , ciit1 m, nt Power.
11
I >1• , ..... 1111,d11, p11d1,, i>ll•,1•1v.11 q1111 l.i vi1rl, lilt• l1h1i, i11111 1t 11"'tt '
, , li1t nm r tu1Jy,en
.i•i:11111 I111111•,11, l.t Vdl li1l>l1 llptl111t• ,
1
~
I I It 11 I ''"' hi I W ~ 1
11,,11111
111111,1111
II 111 I
Ill I I l
I Ill
Ii II I I
II I II , l 11 , I I
1,'.:.,=~!!!!!!iio~""""'--~......!!lilliloi--:-..,._l\._l_-.,~lt: 1
~
6
/
on <ltlrrentes t t nic,1s de mineria de dato 257
oil p II xp nd All
Temperature* 3,405 +
Pressure * -3.393 +
Uptime ... -0,1766 +
Status -0,1258 +
Outcome ... 0,03005 +
259,4
ID Analysis of camara1 n (26-mar-201518:43:46)
ID Analysis of camara1n(26-mar-201521 :00:30)
El Fields
8 Target
, Power
f=J Inputs
,Time
, Temperature
, Pressure
, Uptime
, Status
, Outcome
8 ~ Build Settings
Use partitioned data: false
Calculate variable importance: true
Method: Enter
Include constant in equation: true
Use weight: false
Mode: Simple
n un.i m) V] v ,ntana podra d istingu,r el modeio
8 l n, Adv n<l'd y c
n I ldbli'.1 con r
· to , 1o bJe t1vo PowN y la seis variables de entrada.
p('c
II t:) llntr t
Mode
® ---+ ~
(o Include ( Discard
Outcome= 101
Selllngs 1 Annotations
~ Cancel
&Jply J[ Besii]
P• 1 6
c me ac;, d m1 wna de cldt 259
(;he
- - - t... - ... ,R no•
~ R,ngv
None
; Range None
; Range None
,Rang None
, R1no1 None
; Range None
..' .............-----·····.''
.''' ..
.' ''
.!POWer 101 Ii
®----..
Type
~.
power 101
n el diamante power 101 para ver la informacion de mace o a e
ra a re iar, entonces, que en est e nuevo modelo la variable , as
m \en el ca o anterior esa vari able era la temperatura).
- f.
Variable Importance
Taroets : Po er
Te
0,1 o,.. 0 ,3 0 .4 ,s
f jt r, ic ,o propuc'1l o
. Cason." 19:
619
Exportaci6n de modelo y re ultados
En este pequeno caso se va a expl1car c6mo exportar los modelos I los resultados a
d,versos formatos (texto en archivo piano, HTML, Excel, informe, base de datos, etc J. E
punto de partida va a ser el ejemplo del archivo que se encuentra ub,cado en la carpeta
practica_diecinueve_exportaci6n_de_modelos, perteneciente a la plataforma de
recurses en linea de este Ii bro. Para abrirlo, hay que hacer doble clic en integracion_de_
farmacos_l1bro_exportaci6n_modelos. Una vez hecho esto, se obser,ara una 1enta a
en la cual se podra visualizar la exportaci6n de los diferentes archivos.
drug_i:.ra d
drug_(.rt
drug_r.5 IJ
Ta le
-
/~r
c~
00
o ut_d g_ -t_
+
Report I~I
pred1ccron EYL I
F,P.ura 617
, · r tpv ;_ic. 6r, de 10:; arch110:;
In •r d, 11 lo
I ~11 111,, I 111ift11111.11 ltlll" li1vn dt• Mir ru•,uft Excr·I. Parc1 Pllo, concctc el nodo
1111 .ire
li.111111111• t>,u~: 11111tidt1 L u 1 l qu<· 1,1 1 1111111·11l1c1 P11 lc1 cc1tr•gorfd xport. IJPspu e:::, haga
\ 111 'fl t•I fllldll I)(( 1·1 y ('fl l.i Vt•fllcllld l'IIH'ln(•fll0 (• 1,p0c1fiquc la ruta COIi la que Sf:!
f.1111d 11,11•1 .ill ll1v) .1 ~•1•11t•1,11 . I 111 11 .tr 1 ,1•,01 pLwdP pon<'r, r>0r cjr.m1plo, drug.xi•,. Lucgo,
p11• ,11,111• 11 1 hPll)11 I 1•c ut<• y di, il.t',, ,1 lc1 c,11 pc•lr1 Pr, donde r.;~ 0ncucntrn cl archivo
i: •11 •t ,HIP ll,1111iHh1 d, 111~.xl•,,
I el
1-'ubll h /\rlnotaUon
1nt1I J
~'- ~\11 .i 1110 tr ,u 111 inlo, llldcl6n •n un ,m:.llivo html, con etc cl nodo dramante Drug con
un n d) 1r1 bl1 1 • I u •go, hdf-.d dobl cllr 11 0 ,IC' nodo labl , C'spccifiquc en Filename la
, ut 1 1110 lr dd 1 ' II la fiRU t J y c•c;cojr1 rn I llr type cl c1rc.hivo html. Ocspues, presion e el
bot ) fl f x . lilt p.ir ,1 podc:r g •rwr , I Jrchivo drug html.
- 1, bh
r1bl1
flt n mt
html htm Ii-]
FIi tvpe Ihtml doc um nt r html)
1.,1 P Qin te output Lin p rp u ,1{J01:
I , ,, ,,. l I
lmagenes • T,
,/i M<H1u d.1101.f"<l)ortor
Equ,po
Disco loc1l (C:)
1,.,,1 dat1 (0:)
._. d.lu_ong,n.,J (E:)
• Ocultlr c1rpttM
4. A continuaci6n, cree un DNS para el archivo export r drug Pare ,11 , v.iyr1 pr11rn•ro
al bot6n lnicio, despues haga clic en el Panel de contro l, scoJ.i l.i', lwrr.1m1<'rit,1~
administrativas y luego seleccione y haga doble cite n OOAL
DSN de usuano
Nombre Controlador
M crosoft Access dBAS • Onv
Excel Ries Microsoft Excel D1ver (" xi . • .xi . • id
exportar Dnver do Microsoft Acc. (" mdb)
MS Access Database Microsoft Acces Drtv r (" rndb. •
◄
"'
Un Origen de datos de usul!rio ODBC Im cen norm 6n d tori z ,1
al proveedor de datos lndtC!ldo Un 01 gen do d 01 d ti,u1n 1610
vidlle y lidil19ble en el equipo actulll por el usu rio Ir ,di do
J
264 Data mlntns - Mtneria de datos
/
5. Cliquee en el bot6n Agregar y escoja Driver de Microsoft Access. Despues, haga clic
en el bot6n Finalizar.
Norrbre \~
Driver da Microsoft p<R arcµvos texto C-.btt: ·.csv) {1 =
r
Driver do Microsoft Access met>) f
Driver do Microsoft dBase (".cl:,f} E
Cmer do ~ Ex.eel(".xis) E
£mer do Microsoft Paradax (".d> ) f
..
.
Driverpaa o Miaosoft 'vffllal FaxPro
~ Arv-,., rf RA~ J:= n,;.,..,. r- .+I • nm • mrf.rl 1
"' ~
6. Tras ello, aparecera una ventana en donde debera ingresar la ruta donde se encuentra
el archivo, asi coma el nombre del DNS. En este caso, ponga el nombre exportar_drug.
Para finalizar, haga un die en el bot6n Aceptar.
De-x,iocin·
8.-ededatos
Base de ciaos E:\ eJ)Clltar_cwg .nd,
' ()pocnes>>
/
Nonm Corbt>lador
dBASE Fies Mlcroaoft Access dBASE Driver ("<Ii. •.ndx
Excel Files MlcrolOft Excel Dnver(".xls. ·.x1s,c. •.xbm. •.x
~ Driver do Microsoft Access (" met>)
Oriv r do Microsoft Access (".mdb)
I Comgu-a-
MS~ Database Microsoft Access Driver (" mdb. • ilCCdb)
l'I l
' I
car
7. Afiada ahora un nodo SQL (database) de la categorfa Export y conectelo con el nodo
diamante llamado Drug. Despues, haga doble die en el nodo Database y coloque los
valores mostrados en la figura siguiente. En la opci6n Data source escoja exporta r_drug y
en Table name ponga el nom bre de la tabla . Posteriormente, pulse Export y p resione
el bot6n Execute.
,..., prediccion
~ c __
00
r,
exportar_drug
c~ .... 1
Data source: [ exportar_drug
Table name:
Export_,_Publish l~otat-;;ns J
OK ► Execute j[ Cancel
iii
Data mfntns - ineria de datos
tjllOtr FOOllr
Plllt nip rugY
Prtnt Prt'lltJJ Variable Importance
ennl T~,om On.IQ
0,0 0,1 0 2 OJ C OS
Summary S ngs
9. Ponga, luego, el nombre Drug a la hora de guard ar el archivo con el forria o x~ '. ~ ~a
vez hecho esto, puede ir al directorio en donde se encuentra el arch ·o ge1e--a:; .
Haga doble clic en el y asf podra visual izar la inform aci6n, tal coma se mues:ra e-, la
figura siguiente.
10
LJ c; cl n do qu va a brindar informac·,o· n espec1fica, . Se aco · t · ·
p1ev10 cH red d los comandos CLEM C . · nseJa ener conoc1m1ento
0 0
c,f' r ncu ntrt1 l n lc1 categorfa Output Y·c ~ ~rimer paso, af\ada el nodo Report que
dobl LIie nest mlsmo nodo e . onect~ a.con el nodo diamante. Despues, haga
ingrese el s1gu1ente c6digo:
- --
__ "·~
l tilflJ1i.t l8
GK r► C,etul
2. ;,,;;aca ur "oao Tab e aue se enc en .. ra e 'a ca~ego .. a Fie d Oos . .....eg~ ::-e::e:
co'"' e '"'ooo SPSS. A cornnuac'6.,, naga aoo e c c e.., es:e -.oco. i:s:2 ac.:·::;.., :e ..-- -=-=
os:rar os ..esu.taoos. ::n a fig ra s·gu·ente se 'eoroo ce es·a · :o .. ......,2c·c-. ~- e 2 ~e
o □ se'"'.a" oa .. os 'T'e'lsua es de suscr·oc ones ae 85 ~e ..caco oca es 2s cc----.., e :2:2
e mes. e aria , a "ecra. ?ara e prese e caso so o se ara .... so ce 6 ,,....e ..ca:; : :.:2 e3
/
Capttu
6
'°-
___ ~: _A_p~
ll_a~c_to_nes con dlferentes tkntcas de mtnerfa de datos 269
... filter
I
@J~
/®
~ V·
/
Fields 89 In, 81 ftltered, D renamed. 8 out
·- ----- -
Field Filter Field
"'" Market_74
Morket_75
)(---.. ...
~
Market_76
@ .. @ MarkeL77
Market_78
Market_79
~
-~
~
broadband_l UV ~
Filter Market_80 ~
Market_81 ~
Market_82 ~
Market_83 ~
-
Market_84 ~
Market_85 ~
Fitter Annotauons
-
~
~
DATE_
I
CEJ Cancel AIJply !L_ Beset J
4. Agregue un nodo Time Plot de la categorfa Graphs y conectelo con el nodo Filter.
Despues, haga doble die al nodo Time Plot y coloque los valores como se muestra en la
figura. En Series agregue el cam po Total y desactive el check Display series in separate
panels y el casillero Normalize. Posteriormente, haga clic en el bot6n Execute .
...,. [Total]
[i]
/Table
Plot • Selected sanes J Selected Time Senes mMels
@ - - - - -...► @ Sanos.
I
broadband_1.sav )( axis label v Default ' Custom ..n
T ( -,Display serlei. on separate panels Gcl Normall?e
Display: 0 une I
~I □ Point
□ smoother
1 [Total_)_
0 umtt records Maximum number of records 10 plot I 2000 ~;
Plot
- Appearance
~
Output Annot;itJons
l ut,11
lut.1I
• 000 ,000
1u,oo.ooo
I-
1 .000 .000
500 .00
0 10 :o 30 40 50
Record nu mber
r11ph Annotabon■
5. lnspeccione los datos par separado, es decir, en cada uno ci los m "'re.ado 101 al1 :,
Para ello, agregue otro nodo Time Plot y con ct lo con el nocio Filter. rk~splll's, h,1g.1
doble clic en el nodo Time Plot y coloque los val ores qu sc mu st1 an l n 1.1 11i1u1 .1
siguiente. Posteriormente, presione el bot6n Execute.
sertes
...
x axis label. • Oefllurt ustom
• ooo
4 00
0 000
30 40 50 60
0 10 20
A cord number
mb, ahora el tipo de dato string por el tipo de data date del campo DATE_. Para
llo, a regue un nodo Filler y enlacelo con el nodo Filter. Despues, haga doble clic en
I nodo Filler y coloque los valores como se muestra la figura siguiente.
Fill r
.
@
•
Fiil lnfleld. ~ ~ ~ - ~ ~ - - ~ - - - - - - - -· -
DATE
@. l ► Replace
FIiier
l '"''""'J
Raplac wtlh
Srttlng·. 1 Mnotdllon~ ]
W[ e, ncel
Note en csta ngura que se va a reemplazar la opci6n Always de todos los valores del
Crlnipo date_ de tipo cadena al campo date_ de tipo date.
. Ant 'S d ontinu r con Id sarrollo de est e caso, cambie el valor de fecha por def
con I qu u, . , li
nt I oftwnrc. Par a ello, vaya a Ia opc1on ecto
oo 1, 1uego escoja Strearn
prop rtit' y puL la p st na Options. Despues, ponga los valores que se muestran en
Id ti UI d I ,Ui 'Il l .
pmnostur_li'bro
oatarormet MONYYYY ..
merormet HH·MM.SS .. O Rollover days/mlns
Number display ftlrm1t Standard (I# #1) •
Standard d1clm11plac, a: 3~..
Sclenllftc declm11place
• 3-; Currency declmal pl aces. ~:
Declmal symbol: Period U • Jorouplng symbol
~3
Date baseline (1st Jen) 1900 !~ 2-dlgH dates start fl'om I 1930 f:,
Encoding: ISystem default • J
~ Maximum set slZe ~ :1
~ Limit set size for Neural, Kohonen and K-Meens modeling ~J
lvoung • ]
Refl'esh source nodes on execution
Display fleld and value labels In output
Save As Default
8. Agregue ahora un nodo Type y conectelo con el nodo Filler. Despues, haga doble clic
en el nodo Type y coloque los valores que se muestran en la figura siguiente. Note que
todos los ca mpos son asignados coma sal ida, excepto el campo DATE_ que ha sido
asignado como none {ni salida ni entrada).
Type
®
"• --~ r► Raa_'.l_ Values JClear ValU83 rCIOQI All ValUBf I
Field
~arket_1
__J Range
8 - L Values
13750,117311
__J - ~ Oul
r
Ml6Slngf. Chock Dlrect,on
®• -
Type
Market_J
MarkeL◄
Market_5
Market 6
Total -
DATE
, Range
~ Range
, Range
, R
~
ange
Range
(11659°607551
'
14571 ,17977]
(2205,66111
15488,22789]
153641 3,2406762]
None
None
None
None
None
9 ot
Out
u
Out
out
Out
- , Range (1999-01-01 ,2003- 12-01) None (S) None
--
(. , View current flalds r J View unused fleld settlngs
Types Format Annotations
GJ[ c;c;-J
oee~ ir amt
/
Capitulo 6: Aplkaciones con ct· . .
iferentes tecrncas de mineria de datos 273
®'
..,
+ PerlodlCily 12
® •
♦
Field r, DATE_ ....0]
Tr+ New Oeld name extension ~[$_
TI__ _ _ _ _ _ _ __JIAdd as • Prefix Suffh<
®-i
lme Intervals'
j~[can~' Reset
10. Ubfquese en la pestaF\a Forecast (predicci6n). Luego, active la opci6n Extend records
into the future y ponga el valor de 3 para predecir los tres meses siguientes .
@ Pe-;;-odlcity: 12
OK [ Canr.el
I
rt di 1ly 12
M In in 10
Cnten"
OK
~
~ ► ~
. .:_ I
T,rne lrMI\$ 7 fields
~ ◄
~
T.:.iole 7 fi':!ld~
pftulo 6: 1>hc ,u lo,w < <111
' 111 <'rl'lltl's tl>, 1111 ils cl<' mhwr ia cl<' d.ilo<; ?.7S
.~
44
46
47
L'ij M,1r~ 9t Hf rot,•I
16634 1 7q17
16878 I 8249
1 71 71 18601
17438 18945
I$Tl Tlmolndo,j loTI_ IImel
44 aoo 2007
45 op ?007
46 oct 2002
47 nov 2002
ibr JI i 11 'foerl $Tl Monlhf Tl
·2002
2002
2002
7002
•
1o
11
8
9
Count
1•
au·
57 21366 22773. 57 sep 2003 2003 9
58 21851 23160 58 oct 2003 2003 1o
59 ~3 221 72 23616 59 nov 2003 2003 11
1 22789 24067 . 60 die 2003 2003 12
61 11$ $null$ $null$ n I ene 2004 2004 1
62 11$ $null$ $null$ a, feb 2004 2004 2
~ J11$ $null$ $null$ _ _ _ fl I mar 2004 2004 3
"Tr" ------
Table Annotations
s
S;>
'.::1,93, 15,i"U 0 31-1
E!: 3,911 .,ss 0,3S:!
il,53 15 0 003
SU 35,9 16 0,931
- Ot9 S,53 15 0,003
= ===~•.- -- !9 S,53 15 0,003
=-~cE·r G i :1 11 S E 15 003 4
=c=c=,,- 26,15 16 0 036
=EC : E",.- 3 ,,14 16 0,688
::;: .:~•t- 35 9 t6
---,.._-,-, 0,931
-=- "--= ~ 05 ! 35,9 16 0,931
r
►
f rt1 Id , l'lol ~ fi 18( 1 d ,,.. f:IBIIIC 1 d Tlmo Beriea rnodel
Ill rk 1 1
, STS-M rkol 1
8 ~111
1 ►
7 n Id l1r10,k t 1 n o M ukol
X vi I bAI Iner, ull Cu lom
Aparecera una ventana como la que se muestra en la figura ubicada al final de este
parrafo. De acuerdo con ella, o bserve que las suscripciones del mes de enero del 2014
van ser de 11563 y las de febrero del 2014, 11576. Estos valores antes menc,onados
son las pronosticos de la s suscripciones para el mercado local 1. tambien podemos
ver que las lfneas para datos rea les y previstos de toda la serie temporal estan muy
juntas en el grafico, lo qu e indica que este es un modelo flable para esta serie de
tlempo particular.
12.000
10 .000
..
II
~ e.oo
u
·~
:: 6 ,00
..
:,
4 ,000
Or~ph
Annotallons
.'~El, a a ar coble die e el diamante 7 fields y agregue las campos coma se muestra
c € a g "a s1g iE e. o e que se ha agregado dos campos masque representan,
'€5 E .'c e e, e! .ialo .. infenor tel valor superior de confianza para el data pred1cho.
E s
; e _1
at ~e ~ panels ormahze
1
1
1/1/: l l/1/ 2
I "1Pe 1) 1/(K
Capftulo 6: Aphcaciones
/
con d1ferent t
rs ecnlcac; de mineria <le clato~ 279
Resumen
20. En el caso numero 19 se explica c6mo exportar los modelos y los resu ltados a diversos
formates (texto en archive piano, HTML, Excel, informe, base de datos, etc.) .
21 . En el caso numero 20 se ~plica el metodo de las seri es de tiempo en la resoluci6n
de un problema que consrste en generar predicciones p • • de los
. . , . ara 1as suscnpc1ones
usuanos de una hrpetetica empresa de telecomun ·1 · . · · la
'bl ti·1· ·, d h cac1ones interesada en ant1c1par
post e u 1zac1on e I anc e de banda.
Caso 1: Predicci6n de juego de ten,s
(arboles de decision)
,..,
: t)
:;
Caso 9: Computer hardware data set Caso 14: Validaci6n cruzada ;::;·
C,
·J'J
pocos registros 5
::l
Caso 11. Validaci6n del modelo Grupo 3 ..,
(1)
BlBLlOGRAF{A
l ibro :
, Br 1m n, l., Friedman, J.H ., Olshen, R.A. & Stone, C.I. (1984). Classificaoon and
r gression trees. Belmont, California: Wadsworth.
, Duda, R.O., & Hart, P.E. (1973). Pattern classification and scene analysis. New York:
John Wiley & Sons.
, Han, J. & Kamber, M. (2006) . Data mining concepts and techniques. 2nd Ed. New York:
Elsevier.
• Hernandez, J., Ferrari, C. & Ramf rez, M. (2004). lntroducci6n a la minerfa de datos.
Madrid: Pearson Educaci6n .
, Inmon, W. (2005). Building the data warehouse. 4th Ed . Indianapolis: Wiley Publishing.
, Perez, C. (2007) . Minerfa de datos: tecnicas y herramientas. P edici6n. Madrid:
Editorial Paraninfo.
• Romero, C., Ventura, S., Pechenizkiy, M., & Baker, R. (2010). Handbook of Educaoonal
Data Mining. Boca Raton, Florida: CRC Press, Taylor y Francis.
• Jang, J., Sun, C. & Mizutani, E. (1999) Neuro-fuzzy and soft computing. A computational
approach to learning and machine intelligence. New York: McGraw Hill.
Articulos de revistas:
• Aitken, N.D. (1982). College student performance, satisfaction and retention:
specification and estimation of a structural model. Journal of higher education. Vol.
53 (1) pp. 32-50.
• Araque, F., Roldan, c. & Salguero, A. (2009) . Factors influencing university drop out
rates. Computers & education . Vol. 53, pp. 563-574.
' Ayesha, S., Mustafa, T., Sattar, A. R., & Khan, M. I. (2010). Data mining model for higher
education system. Europen journal of scientific research. Vol. 43 (1) pp. 24-29.
• Baker, R. s. & Yacef, K. (2009) . The state of educational data mining in 2009: a review
and future visions. Journal of educational data mining. Vol. 1 (l) PP- 3-17 -
, Bean, J. (1980). Dropouts and turnover: the synthesis and test of a casual model of
st udent attrition . Research in higher education. Vol 1 2 (2) pp. 15 =>- 187 ·
• Besterfj ld-S C J & Shuman L. J. (1997). Characteristics of freshman
e acre, M., Atman, .. , ' . . • J I
engineering students: models for determining student altntion in engineering. ournu
of engineering education . 86 (2) pp. 139-1 49 · . .
• Borra S & . . h d to compare nonparamett 1c class1f r and to
, . Ciaccio A. (2005) . Met o s . . · s ,
Select th . ' t 1•n ClassVicaHon and Data Ana1yst.::i. pm t, r
e predictors. New Oeve1opmen s 1 '
Ber1·
, in Heidelberg, pp. 11-19. . ,
Burtne . . . analysis to investigate the influ nr.t of
no r, J. (2005). The use of discriminant . teiice Journal of engincr--rir,
n-cog - . • school pers1s • ·
ed nit1ve factors on engineering
Ucotion. Vol . 94 {3) p. 335.
p r i t n : tructural equatio
nti n. Journal of higher education
n.
• Pasca rella, E.T., Y Terenzini, P.T. (1983). Predicting voluntary freshman year persistence/
withdrawal behavior in a residential university: a path ana lytic validation of tinto's
model. Journal of educational psychology. Vol. 75 (2) pp. 215-226 .
• Romero, C. & Ventura, S. (2007) . Educational data Mining: A Survey from 1995 t o
2005. Expert Systems with Applications. Vol. 33 (1) pp. 135-146 .
• Schaefers, K. G., Epperson, D. L., & Nauta, M . M. (1997). Women's career development:
can theoretically derived variables predict persistence in engineering majors? Journal
of counseling psychology. 44 (2) pp . 173-183 .
• Spady, W. G. (1970). Dropouts from higher education : an interdisciplinary rev iew and
synthesis . Interchange. Vol. 1(1} pp. 64-85 .
, Yathongchai, W., Yathongchai, C., Kerdprasop, K., & Kerdprasop, N. (2003). Factor
analysis with data mining technique in higher educational student drop out. Latest
advances in educational technologies.
Tesis:
Ponencias:
3
' A.l_khasawneh R & H b R Modeling Student Retention in Science and Engine r 111'
D1s . . , . o son, . .
1
En c_Plines Using Neural Networks. Learning Environments and Ecosvstem m
" 91 neering Ed t,· IEEE Global Engineering Education Conference (EDUC O ).
"'mm . uca on .
an, Jordania, abril de 2011.
286 Oc1tc1 mining - Mlnerit1 de datos
• Dekker, G., Pechenizkiy, M. & Vleeshouwers, J. Predicting students drop out: a case
study. International Working Group on Educational Data Mining. II International
Conference on Educational Data Mining {EDM). Cordoba, Espana, julio de 2009 .
• French, B. F., lmmekus, J. c. & Oakes, W. A structural model of engineering st u-
dent's success and persistence . Paper presented at the Front iers in Educat ion
Conference, 2003 .
• Goddard, J.C, Cornejo, J.M, Martinez, F.M., Martinez A.E., Rufiner, H. L. & Acevedo,
R. C. Redes neuronales y arboles de decision: un enfoque hfbrido. Memorias de/
Simposium Internacional de Computaci6n organizado por el lnstituto Politecn,co
Nacional. Mexico, noviembre de 1995.
• lmbrie, P. K., Lin, J. J. & Malyscheff, A. Artificial Intelligence Methods to Forecast Eng111 1:
ring Students' Retention based on Cognitive and Non-Cognitive Factors. Paper pre_en-
ted at the Annual Conference of American Society for Engineering Education , 2008
• Zhang, Z., & Richarde, R.S. Prediction and Analysis of Freshman Retention. Paper pre-
sented at the Annual Forum of the Association for Institutional Research (AIR}, 1qq .
• Nghe, N. T., Janecek, P., & Haddawy, P. {2007, October}. A comparative analv ,~ f
techniques for predicting academic performance. In Frontiers In Education Con e en-
ce-Global Engineering: Knowledge Without Borders, Opportunities Without Pa iJOt ts
2007. FIE'07. 37th Annual (pp. T2G-7}. IEEE.
• Wu, X., Zhang, H., & Zhang, H. (2010, October}. Study of comprehensive evaluation
method of undergraduates based on data mining. In Intelligent Computing and lntt
grated Systems {ICJSS), 2010 International Conference on. (pp . 541-543) . IEEE
• Lin, J. J., lmbrie, P. K., & Reid, K. J. (2009}. Student retention modelling: An evaluatll n
of different methods and their impact on pred iction results. Research in En gineuinJ
Education Sysmposium.
• Sembiring, S., Zarlis, M., Hartama, D. & Wani, E. (2011} . Prediction of Stud nt cJdt
mic Performance by an Application of Data M ining Techniques. Proc cd,ng 1J /ntt'r
national Conference on Management and Artificial Intelligence.
Fuentes de internet:
• Virseida,_F. & R~man, J. _{s.f.}. Mine~(~ de datos y aplicacion s. R up rad 11 111 ,1\ 1 d tl
2016 de. <http.//www.1t.uc3m.es/Jvlllena/irc/practicas/06-07 /22.pdf .
• Jimenez A. & Alvarez H. Minerfa de datos en Jo educoc,·o·n (20l0) T b • d
d I
. · · . Ira j 1.1 1::-.lt, 11,1tu
ra e lnte 1genc1a en redes de comunicaciones Dep rt d . 1· 1
. . . · a amento In ni riJ Tl 1f1 tn,i 1 • •
Univers1dad Carlos 111 de Madnd Madrid Recuper d
. ., . . ' · a o en mayo d 01 cl, 1,1 s1 \\lll'11tl'
d1recc1on web. <https://www.1t.uc3m es/jvillena/· / •
. . . · ire practicas/l0- 1 L/08m m pot--
• <http://arch1ve.1cs.uc1.edu/ml/> Consultado
· en mayo d 201
• <http://users.dsic.upv.es/~joral lo/mast r/cu h
rs. lm 1n>. Consultc1d n m,1 1 0 d1 1 } l) It
lmpreso en los talleres graficos de
Surquillo
DATA
MINING MINERiA DE DATOS
Alfred □ Daza
Vergaray
La mineria de datos es una practica de analts1s que perm1Le ,· a
obtener un determinado conocimiento a part,r de la
informaci6n extraida de una base de datos El objet1vo del C'Jf'"•a C')
Oficina principal
• Av. Paseo de la Republica 5613, M,rallores, L,ma, Peru
• Central telef6ntc,r (511 } 748 0560
• E-mail: ventas@ editorialmacro.com
[email protected]