100% encontró este documento útil (1 voto)
408 vistas35 páginas

Informe Weka

Este documento presenta un análisis de datos utilizando la herramienta Weka para predecir si los clientes de una compañía de seguros estarían interesados en comprar un seguro para una casa rodante (caravan). Se analizan los datos provistos sobre más de 5000 clientes con 85 variables y se seleccionan las variables más relevantes para construir modelos de clasificación como el árbol de decisión J48 y Random Forest que puedan predecir la clase objetivo. Finalmente, se aplican estos modelos a nuevos datos de 4000 clientes para identificar

Cargado por

Irvin Perochena
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (1 voto)
408 vistas35 páginas

Informe Weka

Este documento presenta un análisis de datos utilizando la herramienta Weka para predecir si los clientes de una compañía de seguros estarían interesados en comprar un seguro para una casa rodante (caravan). Se analizan los datos provistos sobre más de 5000 clientes con 85 variables y se seleccionan las variables más relevantes para construir modelos de clasificación como el árbol de decisión J48 y Random Forest que puedan predecir la clase objetivo. Finalmente, se aplican estos modelos a nuevos datos de 4000 clientes para identificar

Cargado por

Irvin Perochena
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD CATLICA DE SANTA MARA FACULTAD DE CIENCIAS E INGENIERAS FSICAS Y FORMALES PROGRAMA PROFESIONAL DE INGENIERA DE SISTEMAS

CURSO: INTELIGENCIA DE NEGOCIOS DOCEDENTE ING. GUILLERMO CALDERON PRESENTADO POR: GOMEZ GOMEZ MAYTE MELISSA PEROCHENA CORNEJO IRVIN VALDEZ HUAMANI WILLIAM SEMESTRE: VIII AREQUIPA PER 2013

NDICE DE CONTENIDO 1 INTRODUCCIN ......................................................................................... 3 2 OBJETIVOS ................................................................................................. 3 3 HERRAMIENTA ........................................................................................... 3 3.1 WEKA 3.6.10 ......................................................................................... 3 3.2 USO BSICO DE LA HERRAMIENTA ................................................... 4 3.2.1 IMPORTACIN DE LA BASE DE DATOS ....................................... 4 4 ANLISIS DE LA INFORMACIN ............................................................... 5 4.1 SELECCIN DE UN GRUPO OPTIMO DE VARIALES ......................... 7 4.2 FILTRADO DE DATOS .......................................................................... 9 4.2.1 ELIMINACION DE LOS ATRIBUTOS NO SELECCIONADOS ......... 9 4.2.2 FILTRADO DE DATOS DE LOS ATRIBUTOS ESCOGIDOS......... 10 4.2.2.1 Customer Subtype ............................................................. 10 4.2.2.2 Middle Management .......................................................... 13 4.2.2.3 Rented House ...................................................................... 15 4.2.2.4 Contribution-car-policies ......................................................... 17 4.2.2.5 Contribution-fire-policies ......................................................... 19 4.3 EQUIPARAR CLASES ......................................................................... 21 4.4 REVISION DE ATRIBUTOS ................................................................. 23 4.4.1 Evaluamos Con ChiSquaredAttributeEval Y Ranker ...................... 23 4.4.2 Evaluamos Con InfoGainAttributeEval Y Ranker ........................... 24 4.4.3 Evaluamos Con GainRatioAttributeEval Y Ranker ......................... 25 4.5 CLAUSTER .......................................................................................... 26 4.6 CLASIFICACION.................................................................................. 27 4.6.1 ARBOL J48 .................................................................................... 27 4.6.2 ARBOL ID3 .................................................................................... 29 4.6.3 ARBOL RANDOMFOREST ............................................................ 30 5 CONLUCIONES ......................................................................................... 32 6 REFERENCIAS ......................................................................................... 35

MINI PROYECTO WEKA The Insurance Company (TIC) Benchmark


1 INTRODUCCIN
Para este caso se utilizara datos de una compaa de seguros publicados para una competencia de Data Mining Sentient Machine Research y que actualmente sirven como benchmark. Se quiere predecir si un cliente esta interesado en una pliza de seguro para un Caravan a partir de otros datos sobre el cliente. El conjunto de entrenamiento contiene ms de 5000 registros, incluida la informacin de si tienen o no tienes una pliza de seguros para una Caravan. El conjunto de prueba contiene 4000 clientes, de los cuales solo los organizadores saban si tenan la pliza de seguro correspondiente. El problema a resolver es muy simple: Podra decirme quin est interesado en comprar una pliza de seguros para una casa rodante (caravan) y explicarme por qu? Para resolver el problema se publicaron dos tablas de datos, una con 85 variables explicatorias acerca de quin compr o no una pliza en el pasado. O sea, cada fila consiste de 85 variables independientes ms otra variable dependiente que indica con 1 0 si la persona compr o no (CARAVAN: Number of mobile home policies). La otra tabla es similar a la anterior excepto porque no contiene la variable que indica si la persona compr la pliza o no. [1]

2 OBJETIVOS
Analizar y comprender los datos provistos para poder construir modelos de prediccin. Escoger y determinar las tcnicas o algoritmos de prediccin, los cuales presenten un desempeo ptimo en el caso. Establecer que clientes estaran interesados en comprar una pliza de seguro para la Caravan aplicando los objetivos mencionados anteriormente.

3 HERRAMIENTA
Para realizar la implementacin de los modelos predictivos se hara uso de la herramienta Weka en la versin 3.6.10, d ela cual se dara una breve resea y tutorial bsico de la misma.

3.1 WEKA 3.6.10


LA Weka (Gallirallus australis) es un ave endmica de Nueva Zelanda. Esta Gallincea en peligro de extincin es famosa por su curiosidad y agresividad. De aspecto pardo y tamao similar a una gallina las wekas se alimentan fundamentalmente de insectos y frutos. [2] Este ave da nombre a una extensa coleccin de algoritmos de Mquinas de conocimiento desarrollados por la universidad de Waikato (Nueva Zelanda) implementados en Java [1, 2]; tiles para ser aplicados sobre datos mediante los interfaces que ofrece o para embeberlos dentro de cualquier aplicacin. [2] Adems Weka contiene las herramientas necesarias para realizar transformaciones sobre los datos, tareas de clasificacin, regresin, clustering, asociacin y visualizacin.Weka est diseado como una herramienta orientada a la extensibilidad por lo que aadir nuevas funcionalidades es una tarea sencilla. [2]

Sin embargo, y pese a todas las cualidades que Weka posee, tiene un gran defecto y ste es la es casa documentacin orientada al usuario que tiene junto a una usabilidad bastante pobre, lo que la hace una herramienta dficil de comprender y manejar sin informacin adicional. Este manual tiene por objetivo explicar el funcionamiento bsico de este programa y sentar unas bases para que el lector pueda ser autodidacta. [2] La licencia de Weka es GPL*, lo que significa que este programa es de libre distribucin y difusin. Adems, ya que Weka est programado en Java, es independiente de la arquitectura, ya que funciona en cualquier plataforma sobre la que haya una mquina virtual Java disponible. [2]

3.2 USO BSICO DE LA HERRAMIENTA


A continuacin se mostraran los pasos bsicos para poder realizar la importacin de de los datos a la herramienta y as poder pasar al anlisis de dichos datos. 3.2.1 IMPORTACIN DE LA BASE DE DATOS Este software cuenta con varias opciones al ejecutarlo y la que se utilizara para importar los datos es el botn Explorer el cual sirve para poder escoger la fuente de datos.

Fig. 1 Pantalla de inicio

Fig. 2 Escoger fuente de Datos

Luego de escoger la fuente de datos apareceran todos los atributos y datos que se utilizaran para realizar la prediccion del caso como se mostrara en la Fig. 3.

Fig. 3 Datos Cargados 4 ANLISIS DE LA INFORMACIN


Ahora se realizar el anlisis de la informacin para luego realizar los filtrados correspondientes dependiendo cual sea necesaria para poder realizar una correcta prediccin, para lo cual antes se tomara en cuenta algunas caractersticas principales de las personas que sean candidatas a poder adquirir un seguro para una Caravan, las cuales son: Familia Numerosa Polticas de contribucin vehiculares Casa Rentada Ingresos Con esto determinamos que no todas las variables sirven para predecir la clase que en este caso es Caravan.

Tomando en cuentas estas caractersticas esenciales pasaremos a consolidar las ideas en los datos. Si estuviramos trabajando en un proyecto real con una compaa de seguros, la primera tabla de datos podra venir de una campaa de marketing realizada con una muestra de los clientes y la segunda tabla estara formada por los clientes que no participaron en la campaa anterior. Con el propsito de minimizar los costos de la segunda campaa (la que se har con la segunda lista de clientes), la oferta no ser enviada a toda la lista de clientes, sino a aquellos 800 clientes con mayor probabilidad de que compren el seguro.

As que los pasos a realizar en el proyecto sern: Construir un modelo usando los datos de la primera tabla Aplicar el modelo a la segunda tabla para obtener una probabilidad de que el cliente compre el seguro Seleccionar los 800 clientes con mayor probabilidad

En un proyecto real se enviaran los folletos a estos 800 clientes con la esperanza que compraran la pliza un porcentaje similar al obtenido en las pruebas con la primera tabla. Pero en nuestro caso usaremos un dato que fue publicado luego que la competencia finaliz. Este dato fue la lista de los clientes pertenecientes a la segunda tabla y que compraron la pliza. Dicho de otro modo, nuestra segunda tabla contiene la variable a predecir. De este modo podremos probar el modelo y compararlo con los resultados obtenidos por los participantes de la competencia. [2] En principio veremos si existe relacin entre los atributos para ello visualizaremos los datos sin modificar, para darnos cuenta de dicha relacin. Utilizando el atributo Contribution-car-policies como atributo de prueba podemos observar una ntima relacin entre los datos pero al mismo tiempo una cierta cantidad de outliners los cuales tienes que ser filtrados en el siguiente paso.

Fig. 4. Visualizacion de la Relacion de Datos

4.1 SELECCIN DE UN GRUPO OPTIMO DE VARIALES


Un score es un nmero que tiene asociada una probabilidad. Un score de riesgo de crdito indicar la probabilidad de falta de pago. En este caso, el score tendr asociada la probabilidad de que el cliente compre la pliza de seguros. Para la eleccin correcta de los atributos que ms informacin tiene asociada a la variable de prediccin (86) se har uso de una herramienta Powerhouse. [1]

Fig. 5. Logo Software PowerHouse


Powerhouse tiene tres modelos que generan un score, el OPFIT, el MAXIT y el Scorecard. Para esta tarea podemos usar el modelo OPFIT o el Socrecard. [1] Comenzamos cargando los datos y definiendo CARAVAN como la variable a predecir (es la variable 86). Hay que tener en cuenta que no hace falta hacer ninguna preparacin previa de los datos. Cuando los mismos son cargados en Powerhouse, quedan automticamente preparados para que cada variable exponga al mximo la informacin que pueda contener acerca de la variable a predecir. Al terminar la carga y la preparacin de los datos (esta preparacin en realidad forma parte de algo ms complejo que es un mapeo de informacin, pero para este ejercicio no hace falta considerar este tema), aparece una ventana de estadsticas que sirve para realizar un anlisis exploratorio. [1]

Fig. 5. Carga y la preparacin de los datos 7

La pantalla muestra una lista de todas las variables con varias columnas con informacin acerca de la misma. La parte inferior de la ventana muestra ms detalles acerca de la variable que est seleccionada en ese momento. En un proyecto real esta informacin es muy til para verificar si las variables contienen la informacin que se espera que tengan. El siguiente paso es seleccionar las variables ms importantes. El modelo que vayamos a construir debe estar basado en unas pocas variables por varias razones: Es ms simple de entender Existe mayor probabilidad de que funcione correctamente con datos nuevos Se facilita la preparacin de variables para el rea de sistemas [1]

Tenemos a disposicin 85 variables. Cmo seleccionar un grupo ptimo de variables? La tarea no es simple debido a la explosin combinatoria que aparece si se desean probar todos los grupos posibles. Afortunadamente Powerhouse usa un mtodo basado en la Teora de la Informacin que le permite encontrar un grupo ptimo de variables en muy poco tiempo. La siguiente tabla muestra las variables seleccionadas

Fig.6 Variables seleccionadas


Variables 47 PPERSAUT Contribution car policies 1 MOSTYPE Customer Subtype see L0 22 MBERMIDD Middle management 30 MHHUUR Rented house 59 PBRAND Contribution fire policies

Las variables aparecen en orden. O sea, PPERSAUT es la variable que mayor informacin aporta acerca de si el cliente comprar o no la pliza. La siguiente variable es la que mayor informacin adicional aporta., y as sucesivamente. Las 5 variables juntas aportan un 58% de la informacin necesaria para predecir sin errores si el cliente comprar o no la pliza. Powerhouse no continu seleccionando ms variables porque la siguiente variable no aportara la suficiente informacin adicional para justificar la prdida de representatividad de la muestra con la que se construir el modelo. Dicho de otro modo, Powerhouse nos dice: "Para obtener un buen modelo que funcione tanto con datos del training set como con datos nuevos, stas son las 5 variables recomendadas "[1] Vale la pena notar que las ltimas dos variables parecen aportar ms informacin que cada una del resto, tomadas por separado. O sea, la ltima variable aporta 58.11% - 36.90% = 21.21% de informacin adicional. De la misma manera, la variable anterior aporta 17.26%. Esto parece contradecir lo que se dijo anteriormente, que la primera variable es la que lleva la mayor cantidad de informacin posible. Pero esta contradiccin es slo aparente. Lo que est sucediendo es que las variables que van siendo agregadas estn interactuando con las ya seleccionadas previamente, entonces la informacin que aportan es mayor que si las tomramos aisladamente.

4.2 FILTRADO DE DATOS


Luego de la seleccin de las variables ms ptimas para el desarrollo de la prediccin se realizara el filtrado de los datos en cada atributo de acuerdo a los criterios anteriormente mencionados y llegar as a la muestra requerida de los 800 clientes. 4.2.1 ELIMINACION DE LOS ATRIBUTOS NO SELECCIONADOS En principio se Eliminaran todos los atributos que no sean necesarios para la prediccin como se muestra en las siguientes figuras para lo cual se utilizara Remove.

Fig. 7. Eliminacion de los Atributos sin importancia

Fig. 8. Atributos Seleccionados

4.2.2 FILTRADO DE DATOS DE LOS ATRIBUTOS ESCOGIDOS Ahora procederemos a realizar la limpieza de datos de cada uno de nuestros atributos, empezaremos con: 4.2.2.1

Customer Subtype
Utilizando RemoveWithValues como se mostrara en la siguiente figura. Primero se eliminaran los datos del 2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,19,21,23,24,25,27,28, 29,30,32,34 por ser datos que no encajaran en el perfil.

10

Fig. 9. Cuadro de Datos

11

Fig.10. Filtados de Datos 1


Luego del Filtrado asi quedara el primer Atributo

Fig.11. Resultado del Filtrado Customer Subtype 12

4.2.2.2

Middle Management
Utilizando RemoveWithValues como se mostrara en la siguiente figura. Como estos datos estan representados en porcentajes el criterio que se tomara para filtrar los datos sera el de menos porcentaje ya que no aporta lo necesario para considerarlo como un dato importante.

Fig.12. Datos sin filtrar Middle-Management

13

Fig.13. Filtado de datos 2


Luego del Filtrado as quedara el primer Atributo:

Fig. 14. Resultado del Filtrado Middle-Management 14

4.2.2.3

Rented House
Utilizando RemoveWithValues como se mostrara en la siguiente figura. Como estos datos estan representados en porcentajes el criterio que se tomara para filtrar los datos sera el de menos porcentaje ya que no aporta lo necesario para considerarlo como un dato importante.

Fig. 15. Datos sin filtrar Rented-House

15

Fig.16. Filtrado Rented-House

Fig.17. Resultado del Filtrado Rented -House 16

4.2.2.4

Contribution-car-policies
Utilizando RemoveWithValues como se mostrara en la siguiente figura. En este caso para el filtrado tomaremos en cuenta el hecho de que varios datos se encuentran en 0 y en un caso es de 9, entonces no son relevantes para la predicion y se eliminaran.

Fig. 18. Datos sin filtrar Contribution-car-policies

17

Fig. 19. Filtrado Contribution-car-policies

Fig. 20. Resultado del Filtrado Contribution-car-policies 18

4.2.2.5

Contribution-fire-policies
Utilizando RemoveWithValues como se mostrara en la siguiente figura. En este caso para el filtrado tomaremos en cuenta el hecho de que varios datos se encuentran en 0 o tienes valores muy bajos, siendo asi que no afectarian en la predicion y se procedera a eliminarlos.

Fig. 21. Datos sin filtrar Contribution-fire-policies

19

Fig. 22. Filtrado Contribution-fire-policies

Fig. 23. Resultado del Filtrado Contribution-fire-policies 20

4.3 EQUIPARAR CLASES


El atributo caravan es el que se debe determinar, y para este atributo usara el clasificador. Podemos notar que est bastante descompensado, por probabilidades el algoritmo siempre considera al mayor. Recordar que este anlisis lo hacemos debido a que es el atributo que determina la prediccin. Entonces utilizaremos el filtro Resample para equilibrar los datos de la siguiente maner a. [2]

Fig. 23 Representacion del Desequilibrio de datos

21

Fig. 24. Configuracion Resample

Fig. 25 Resultado del Resample 22

Entonces al equilibrar los datos da un resultado de: NO = 399 SI = 416

4.4 REVISION DE ATRIBUTOS


Para este paso se utilizara el Tab Select Attributes el cual determina la relevancia de los atributos. Vamos a evaluar la correlacin de todos los atributos con el Atributo caravan. [3]

4.4.1 Evaluamos Con ChiSquaredAttributeEval Y Ranker

Fig. 26. Evaluacion CSAE con R


Datos Relevantes: Contribution-car-policies: 159.28 Rented-House:45.06

No se encuentran muy cercanos.

23

4.4.2 Evaluamos Con InfoGainAttributeEval Y Ranker

Fig. 27. Evaluacion IGAE con R


Datos Relevantes: Contribution-car-policies: 0.1482 Rented-House: 0.04044

No se encuentran muy cercanos.

24

4.4.3 Evaluamos Con GainRatioAttributeEval Y Ranker

Fig. 28. Evaluacion GRAE con R


Datos Relevantes: Contribution-car-policies: 0.12063 Customer - Subtype: 0.1683

No se encuentran muy cercanos.

Si observamos en los tres, los atributos Contribution-car-policies y Rented-House casi siempre estan en los primeros con Custonme-Subtype pero no tienen mucha cercania entre ellos eso kiere debir que no estan muy relacionados, por lo cual no es necesario eliminar ninguno.

25

4.5 CLAUSTER
Pulsando la tercera pestaa, llamada Cluster, en la parte superior de la ventana accedemos a la seccin dedicada al clustering. El funcionamiento es muy similar al de clasificacin: se elije un mtodo de clustering , se selecciona las opciones pertinentes y con el botn Start empieza el funcionamiento. Una opcin propia de este apartado es la posibilidad de ver de una forma grfica la asignacin de las muestras en clusters. Esto se puede conseguir activando la opcin Store cluster for evaluation , ejecutando el experimento y seguidamente, en la lista de resultados, pulsando el botn secundario sobre el experimento en cuestin y marcando la opcin Visualize cluster assignments con esto obtendremos una ventana similar a las del modo explorador para mostrar grficas en el que nos mostrar el clustering realizado. [3]

Fig. .Claustering
Como se puede observar de acuerdo a las atributos y el total de los datos realiza unca clasificacion o agrupamiento deacuerdo a la variable Claa: Caravan, dando un cierto acercameinto a la prediccion.

26

4.6 CLASIFICACION
Para poder realizar una clasificacin se necesita aplicar tcnicas o algoritmos en los cuales por medio de la matriz de confusin se logre determinar la calidad y presencia de los datos. En este caso utilizaremos los siguientes algoritmos: 4.6.1 ARBOL J48 Es un algoritmo de induccin que genera una estructura de reglas o rbol a partir de subconjuntos (ventanas) de casos extrados del conjunto total de datos de entrenamiento. [3] En este sentido, su forma de procesar los datos es parecido al de Id3. El algoritmo genera una estructura de reglas y evala su bondad usando criterios que miden la precisin en la clasificacin de los casos. Emplea dos criterios principales para dirigir el proceso dados por [10]:1. [3] Calcula el valor de la informacin proporcionada por una regla candidata (o rama del rbol), con una rutina que se llama info.2. Calcula la mejora global que proporciona una regla/rama usando una rutina que se llama gain (beneficio). [3]

Para trabajar con este algoritmo se realizara la siguiente configuracin.

Fig. 29. Configuracion J48 27

minNumObj = 2(nmero de hijos), para rbol ms pequeo. Se utilizar la opcin de testeo Cross--validation. El atributo ser CARAVAN.

Fig. 30. Configuracion J48


Como se ve en la imagen la matriz de confusin en su diagonal de izquierda a derecha y de arriba abajo muestra datos mayores que sus opuestos, en este caso resulto de esta manera: De la Class A (0) fueron 99 los que no se clasificaron correctamente y 300 que si lo hicieron De la Class B (1) fueron 35 los que no se clasificaron correctamente y 381 que si lo hicieron

Y eso es un indicador de que los datos estn relacionados de manera ptima para la prediccin. Podemos ver: Correctly Classified Instances = 83.5583 % (eficiencia) TP Rate (true positive) es alta para ambas clases. Precisin es alta para ambas clases.

28

Fig. 31. Arbol J48

4.6.2 ARBOL ID3 El ID3 es capaz de tratar con atributos cuyos valores sean discretos o continuos. En el primer caso, el rbol de decisin generado tendr tantas ramas como valores posibles tome el atributo. [3] Si los valores del atributo son continuos, el ID3 no clasifica correctamente los ejemplos dados. Por ello, se propuso el C4.5, como extensin del ID3. [3] ID3 es un algoritmo iterativo que elige al azar unsubconjunto de datos a partir del conjunto de datos de entrenamiento yconstruye un rbol de decisin a partir de ello. El rbol debe clasificar deforma correcta a todos los casos de entrenamiento. [3]

Fig. 32. Datos de Salida ID3 29

Como se ve en la imagen la matriz de confusin en su diagonal de izquierda a derecha y de arriba abajo muestra datos mayores que sus opuestos, en este caso resulto de esta manera: De la Class A (0) fueron 73 los que no se clasificaron correctamente y 311 que si lo hicieron De la Class B (1) fueron 16 los que no se clasificaron correctamente y 400 que si lo hicieron Y eso es un indicador de que los datos estn relacionados de manera ptima para la prediccin. Podemos ver: Correctly Classified Instances = 87.2393% (eficiencia) TP Rate (true positive) es alta para ambas clases. Precisin es alta para ambas clases.

Fig. 33.Margen de la Curva

4.6.3 ARBOL RANDOMFOREST Este algoritmo presenta las siguientes caractersticas: Corre eficientemente sobre grandes bases de datos Puede manejar cientos de variables de entrada sin eliminacin de otras variables. Esto da las estimaciones para saber que variables son importantes en la clasificacin. Es un mtodo eficaz para estimar datos perdidos y mantiene la exactitud de cundo una proporcin grande de los datos falla. Los rboles generados pueden ser salvados de un uso futuro sobre otros datos. Los prototipos son calculados ya que dan informacin acerca de la relacin entre las variables y las clasificaciones. Ofrece un mtodo experimental para detectar interacciones entre variables. [3]

30

Fig. 34. Datos de Salida RandomForest


Como se ve en la imagen la matriz de confusin en su diagonal de izquierda a derecha y de arriba abajo muestra datos mayores que sus opuestos, en este caso resulto de esta manera: De la Class A (0) fueron 79 los que no se clasificaron correctamente y 320 que si lo hicieron De la Class B (1) fueron 14 los que no se clasificaron correctamente y 402 que si lo hicieron

Podemos ver: Correctly Classified Instances = 88.589% (eficiencia) TP Rate (true positive) es alta para ambas clases. Precision es alta para ambas clases.

31

Fig. 35. Marguen de la curva

Tomando en cuenta los resultados optenidos en la Clasificacion el arbol con mayor porcentaje de instancias correctas y el menor numero de datos sin clasificar fue RandomForest dando un resultado mucho mas cercano al de los interesados (416).

4.7 PUNTO A CONSIDERAR


El problema original nos pide elegir los 800 clientes entre 4.000 con mayor probabilidad de comprar una pliza, o sea, el 20%. Del grfico de obtenido al utilizar el Resample podemos notar que del 20% de los clientes seleccionados con el modelo contiene aproximadamente un 50% de compradores de pliza. Los datos de la primera tabla muestran que un 5.72% de los clientes compraron la pliza (este dato sale de la distribucin de la variable a predecir). Por lo tanto podemos estimar la cantidad de clientes que comprarn la pliza en la segunda tabla. Debe ser 5.72% de 4.000 lo que es lo mismo, 229 clientes. As que en base a estos clculos deberamos esperar que el modelo seleccione aproximadamente un 50% de 229, o sea unos 114 clientes aproximadamente.

Si aplicamos este criterio tendramos que realizar el Resample dos veces ms a los 800 clientes, con el porcentaje a un 50 % para poder aproximarnos al resultado esperado.

32

2DO RESAMPLE

Fig. 35. Configuracion del Nuevo Resample

Fig. 36. Resultado del 2do Resample


Como se Observa el class Caravan desminuyo en un 50%, pero la idea es que se acerque mas a la prediccion planteada.

33

3ER RESAMPLE

Fig. 37. Configuracion 3er Resample

Fig. 38. Resultado del 3er Resample


Como se observa el class Caravan se acerc mucho a las prediccin de los 114 lo cual indica un buen filtrado al obtener como resultado 109 posibles compradores para la pliza.

34

5 CONLUCIONES
Se confirm que no todos los datos brindados para la prediccin son realmente tiles por ser datos que no se encuentras altamente relacionados con el atributo clasificatorio CARAVAN. Se logr constatar y ubicar que para este caso el mejor algoritmo es el RandomForest por haber tenido mucho ms instancias clasificadas y por haberse acercado ms a la prediccin. De acuerdo a las caractersticas de los clientes se logr determinar cules de ellos estaran realmente interesados en adquirir un seguro para su Caravan.

6 REFERENCIAS
[1] Marcelo R. Ferreyra. Pasos para construir un score. [Online] Disponible en: http://powerhousedm.blogspot.com/2007/10/pasos-para-construir-un-score.html [2] Diego Garca Morate. Manual De Weka, [Online] Disponible en: http://www.metaemotion.com/diego.garcia.morate/download/weka.pdf [3] Paula Andrea Vizcaino Garzon, Fundacin Universitaria Konrad Lorenzfacultad De Ingeniera De Sistemasbogot; Aplicacin De Tcnicas De Induccin De rboles Dedecisin A Problemas De Clasificacin Mediante El Usode Weka (Waikato Environment For Knowledge Analysis)., [Online] Disponible en: http://es.scribd.com/doc/59902428/Aplicacion-De-Tecnicas-De-Induccion-De-Arboles-DeDecision-A-Problemas-De-Clasificacion-Mediante-El-Uso-De-Weka-Waikato-Environment-For-Knowledge-Ana

35

También podría gustarte