100% encontró este documento útil (1 voto)

140 vistas25 páginas

Algoritmos de Clasificación: Random Forest

Este documento describe el algoritmo de clasificación Random Forest. Explica brevemente qué es la clasificación, y ofrece ejemplos de clasificación usando algoritmos como Naive Bayes, LDA, QDA y árboles de decisión. Luego define el método de bagging y cómo se aplica a problemas de clasificación y regresión. Finalmente introduce el algoritmo Random Forest como una extensión del método bagging.

Cargado por

maria eugenia palma florian

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

100% encontró este documento útil (1 voto)

140 vistas25 páginas

Algoritmos de Clasificación: Random Forest

Cargado por

maria eugenia palma florian

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

ALGORITMOS DE CLASIFICACIÓN :

RANDOM FOREST
«Lo llaman suerte, pero es constancia.
Lo llaman casualidad, pero es
disciplina. Lo llaman genética pero es
sacrificio. Ellos hablan , tú estudia.»»
SAN MARCOS DATA SCIENCE COMMUNITY
MENTORES
José Antonio Cárdenas Garro André Omar Chávez Panduro
ESTADÍSTICA ESTADÍSTICA
UNMSM UNMSM
MSc in Data Science Candidate MSc in Data Science Candidate
Promotion “Erwin Kraenau Espinal” Promotion “Erwin Kraenau Espinal”
Universidad Ricard Palma Universidad Ricard Palma

Predictive Modelling Specialist Data Scientist

Especialidades : Predictive Modeling | Machine Especialidades : Predictive Modeling | Machine

Aldo Ray Chávez Panduro

INGENIERÍA DE SISTEMAS
UNMSM
Student of MSc in Data Science
Universidad Ricard Palma

Risk Management Specialist

Especialidades : Big Data| Machine Learning |
Programming | Risk Specialist – IFRS9 | Data Science
AGENDA
 Definición de Clasificación.
 Ejemplos de clasificación.
 Bagging.
 Random Forest.
DEFINICIONES BÀSICAS
• Conjunto de Datos (Data Set): El total del conjunto de datos sobre los que queremos
desarrollar un algoritmo de Machine Learning con el fin de obtener un modelo que lo
represente lo mejor posible. Contendrá variables independientes y dependientes.

• Variables Independientes (Features), (VI): Aquellas columnas del Data Set que
serán usadas por el algoritmo para generar un modelo que prediga lo mejor posible las
variables dependientes.

• Variables dependientes (Labels,Target), (VD): Columna del data set que responde
a una correlación de VI y que debe ser predicha por el futuro modelo

• Conjunto de Datos de Entrenamiento (Training Set): Subconjunto del Data Set

que será utilizado para entrenar el modelo que se pretende generar.

• Conjunto de Datos de Test (Test Set): Subconjunto del data set que se le pasará al
modelo una vez haya sido entrenado para comprobar, mediante el uso de diferentes
métricas, sus indicadores más importantes de calidad.
A

5
CLASIFICACIÓN: DEFINICIÓN
 Dada una colección de registros (Conjunto de
Entrenamiento) cada registro contiene un conjunto de
variables (atributos) denominado x, con una variable
(atributo) adicional que es la clase denominada y.

 El objetivo de la clasificación es encontrar un modelo

(una función) para predecir la clase a la que pertenecería
cada registro, esta asignación una clase se debe hacer
con la mayor precisión posible.

 Un conjunto de prueba (tabla de testing) se utiliza para

determinar la precisión del modelo. Por lo general, el
conjunto de datos dado se divide en dos conjuntos al azar
de el de entrenamiento y el de prueba.
MODELO GENERAL DE LOS MÉTODOS DE
CLASIFICACIÓN
REEMBO LSO
ESTADO ING RESO S
FRAUDE
Algoritmo
ID CIVIL ANUALES de
1 SI SOLTERO S/ 1,000 NO Aprendizaje
2 SI CASADO S/ 5,000 NO
Generar
3 NO CASADO S/ 3,500 SI el
4 SI VIUDO S/ 4,500 NO Modelo
5 NO SOLTERO S/ 2,000 NO
6 NO SOLTERO S/ 1,500 SI

Tabla de Aprendizaje
Modelo

ESTADO ING RESO S

REEMBO LSO FRAUDE
ID CIVIL ANUALES
7 SI SOLTERO S/ 4,000 NO
Aplicar
el
8 SI CASADO S/ 5,500 NO
Modelo
9 NO CASADO S/ 6,500 SI Evaluar Nuevos
Tabla de Testing Individuos
10
DEFINICIÓN DE CLASIFICACIÓN
 Dada una base de datos 𝐷 = {𝑡1, 𝑡2, … , 𝑡𝑛 } de tuplas
o registros (individuos) y un conjunto de clases
𝐶 = {𝐶1, 𝐶2, … , 𝐶𝑚 }, el problema de la
clasificación es encontrar una función 𝑓: 𝐷 → 𝐶 tal
que cada 𝑡𝑖 es asignada una clase 𝐶𝑗 .

 𝑓: 𝐷 → 𝐶 podría ser una Red Neuronal, un Árbol de

Decisión, un modelo basado en Análisis
Discriminante, o una Red Beyesiana.
EJEMPLO 1: ALGORITMO NAIVE BAYES

 Problema de clasificación binaria. Frontera de

decisión cuadrática
Frontera de decisión Bayes. T asa error = 0

Se simularon 200 observaciones del

1.5

vector bidimensional (x1,x2); ambas

componentes del vector son variables
1.0

independientes con una distribución

0.5

uniforme en (-1.5,1.5)
0.0
x2

La clasificación viene dada por:

-0.5

Clase 2: x2 > 1-x12

-1.0

Clase 1: x2 < 1-x12

-1.5

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

x1
EJEMPLO 2: SOLUCIONES LDA Y QDA

Frontera decisión LDA. Tasa error = 19.91 Frontera decisión QDA. Tasa error = 15.75
1.5

1.5
1.0

1.0
0.5

0.5
0.0

0.0
x2

x2
-0.5

-0.5
-1.0

-1.0
-1.5

-1.5

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

x1 x1
EJEMPLO 3: SOLUCIÓN ÁRBOL DE DECISIÓN

Solución obtenida
Frontera decisión CART. Tasa error = 8.1

mediante CART.
1.5

Árbol sin podar

1.0
0.5
0.0
x2

-0.5
-1.0
-1.5

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

x1
¿QUÉ ES BAGGING?
 Bagging quiere decir bootstrap aggregation. Introducido
por Leo Breiman (Berkeley) en 1996
 La idea es simple. Si tienes las opiniones de un comité de
expertos, considéralas todas para tomar una decisión
 Se extraen muestras bootstrap del conjunto de datos. Para
cada muestra, se obtiene un modelo de predicción. El
nuevo predictor “bagging” se construye mediante
agregación

+ + + +

 El objetivo es reducir la inestabilidad

BAGGING PARA CLASIFICACIÓN
 Si el problema es de clasificación bagging clasificará
cada nueva observación por mayoría.
Por ejemplo:
x

1 1 1 0 1
 La clase 1 recibió cuatro votos. La clase 0 un voto.
 El predictor bagging clasificará x en la clase 1.
BAGGING PARA REGRESIÓN
 Si el problema es de regresión la predicción bagging se
obtiene promediando las predicciones de todos los
modelos. Por ejemplo:
x

2 3 5 1 7
 La predicción bagging será: (2+3+5+1+7)/5 = 3.6
 Cuando la variable respuesta es binaria 0/1, el
bagging para regresión se reduce al criterio de
clasificar por mayoría
EJEMPLO 4: EL EFECTO BAGGING

Frontera decisión BAGGING. Tasa error = 5.8

1.5

 Se emplearon 50
1.0

muestras bootstrap.
 Se ha reducido
0.5

la inestabilidad
de CART.
0.0
x2

 En este caso también

-0.5

se ha mejorado en
capacidad
-1.0

predictiva.
-1.5

- - - 0.0 0.5 1.0

1.5 1.0 0.5 1.5
x1
BOSQUES ALEATORIOS (RANDOM FOREST)

 El caso en el que todos los clasificadores del

Método de Consenso son Árboles dicho método
se denomina Bosques Aleatorios (Random
Forest).
RANDOM FORESTS O BOSQUES ALEATORIOS (RF)

 Desarrollado por Leo Breiman (Berkeley) en 2001

 Tiene su base en

 La predicción con CART

 La agregación de modelos de árbol
 Bootstrap Aggregation (Bagging)

 Comercializado por Salford Systems en la herramienta

RandomForestsTM.
 Implementado por Andy Liaw y Matthew Wiener en la
librería randomForest del entorno R de programación.
BOSQUES ALEATORIOS (RANDOM FOREST)

Cada árbol usa m diferentes

variables, aleatoriamente
escogidas del conjunto
de p variables m<p (m=mtry)
EL MECANISMO DE RANDOM FOREST

 La aleatorización se introduce en el
mecanismo de aprendizaje a través de dos
vías: el remuestreo y la aleatorización
en la selección del corte en cada nodo

 Se toman B muestras bootstrap del conjunto de datos para

construir B árboles sin podar. Esto corresponde a la fase bagging
y proporciona el bosque de árboles
 Para construir cada árbol del bosque, RF busca el corte en cada
nodo entre un conjunto de R variables predictoras que han sido
seleccionadas al azar
 Por defecto B = 500 y R = sqrt(nº predictores).
LA ESTIMACIÓN DEL ERROR CON RF
 Se define la tasa de error out of bag (OOBi) de una
observación xi como el error obtenido al ser clasificada por
los árboles del bosque construidos sin su intervención.

 La estimación OOB del error es el promedio de todos

los OOBi para todas las observaciones del conjunto de
datos.

 Es mejor estimador que el error aparente. Parecida a la

estimación por validación cruzada.

 La medida se puede extrapolar al problema de regresión

describiéndola en términos del ECM.
EJEMPLO 5: SOLUCIÓN CON RANDOM FOREST

Frontera decisión RF. Tasa error = 5.56

1.5

 Se empleó un
1.0

bosque con 5000

árboles
0.5

 ¿Qué ha ocurrido
0.0
x2

con la tasa de
-0.5

error? Comparar
-1.0

con lda, qda,

CART y bagging
-1.5

- - - 0.0 0.5 1.0

1.5 1.0 0.5 1.5
x1
DOCUMENTACIÓN SOBRE RANDOM FOREST

 Página Web de Leo Breiman:

[Link] Fallecido en julio de
2005

 Página Web de Adele Cutler: [Link]

 Página Web de Salford Systems: [Link]

Versión comercial. White papers y muchas aplicaciones de RF
en consultoría
¡Gracias!
San Marcos Data Science Community

Auspicio : Escuela Académica Profesional de Estadística

San Marcos Data Science Community. C
¿PREGUNTAS?
REALICEMOS EL TALLER

También podría gustarte

Introducción al Data Mining y sus Técnicas
Aún no hay calificaciones
Introducción al Data Mining y sus Técnicas
55 páginas
Redes Neuronales y Herramientas Python
Aún no hay calificaciones
Redes Neuronales y Herramientas Python
20 páginas
Aprende Python
Aún no hay calificaciones
Aprende Python
492 páginas
Procesamiento Del Lenguaje Natural Con Python
Aún no hay calificaciones
Procesamiento Del Lenguaje Natural Con Python
18 páginas
El Analisis de Datos
Aún no hay calificaciones
El Analisis de Datos
53 páginas
Modelo Predictivo de Incumplimiento de Pago
Aún no hay calificaciones
Modelo Predictivo de Incumplimiento de Pago
10 páginas
Aplicacion de Redes Convolucionales Al Procesamiento de Imagenes
Aún no hay calificaciones
Aplicacion de Redes Convolucionales Al Procesamiento de Imagenes
17 páginas
Matemticas para Data Science Probabilidad
Aún no hay calificaciones
Matemticas para Data Science Probabilidad
12 páginas
Teorema y Clasificador Naive Bayes
Aún no hay calificaciones
Teorema y Clasificador Naive Bayes
7 páginas
Algoritmos de Machine Learning: Guía Completa
Aún no hay calificaciones
Algoritmos de Machine Learning: Guía Completa
1 página
Manual Técnico para Sistemas SENA
0% (2)
Manual Técnico para Sistemas SENA
3 páginas
Bases de Datos Orientadas A Grafos y Su Enfoque en El Mundo Real
Aún no hay calificaciones
Bases de Datos Orientadas A Grafos y Su Enfoque en El Mundo Real
7 páginas
Introducción a Machine Learning y Big Data
Aún no hay calificaciones
Introducción a Machine Learning y Big Data
25 páginas
Ontología para Representación del Conocimiento en Lectura
Aún no hay calificaciones
Ontología para Representación del Conocimiento en Lectura
293 páginas
Introducción a la Simulación de Sistemas
Aún no hay calificaciones
Introducción a la Simulación de Sistemas
27 páginas
Vender con Video-Historias Efectivas
Aún no hay calificaciones
Vender con Video-Historias Efectivas
10 páginas
Fundamentos de Machine Learning Online
Aún no hay calificaciones
Fundamentos de Machine Learning Online
49 páginas
Guía de Historias de Usuario en Agile
Aún no hay calificaciones
Guía de Historias de Usuario en Agile
45 páginas
Flask y Docker: Guía de Configuración
Aún no hay calificaciones
Flask y Docker: Guía de Configuración
3 páginas
Árboles de Decisión en R
Aún no hay calificaciones
Árboles de Decisión en R
18 páginas
Introducción a Ruby on Rails
Aún no hay calificaciones
Introducción a Ruby on Rails
31 páginas
Introducción al Algoritmo Voraz
Aún no hay calificaciones
Introducción al Algoritmo Voraz
15 páginas
Guía Completa del Árbol de Decisión
Aún no hay calificaciones
Guía Completa del Árbol de Decisión
13 páginas
Herramientas Clave de Administración en Azure
Aún no hay calificaciones
Herramientas Clave de Administración en Azure
82 páginas
ACAv2 ES SG M02
Aún no hay calificaciones
ACAv2 ES SG M02
52 páginas
Introducción a SOAP en Pediatría
Aún no hay calificaciones
Introducción a SOAP en Pediatría
19 páginas
Machine Learning Arboles de Decision
Aún no hay calificaciones
Machine Learning Arboles de Decision
10 páginas
Mi Manual de Camunda
Aún no hay calificaciones
Mi Manual de Camunda
10 páginas
Ciencia de Datos Con Python
100% (1)
Ciencia de Datos Con Python
19 páginas
Regresión Logística en Python
Aún no hay calificaciones
Regresión Logística en Python
30 páginas
Python For Data Science The Ultimate
Aún no hay calificaciones
Python For Data Science The Ultimate
148 páginas
4 Power Bi - Taller de Power Bi Service Nivel Iv
Aún no hay calificaciones
4 Power Bi - Taller de Power Bi Service Nivel Iv
7 páginas
Algoritmos y Aplicaciones de Aprendizaje Supervisado
Aún no hay calificaciones
Algoritmos y Aplicaciones de Aprendizaje Supervisado
5 páginas
Ilovepdf Merged
Aún no hay calificaciones
Ilovepdf Merged
613 páginas
Python para Informaticos Es
Aún no hay calificaciones
Python para Informaticos Es
256 páginas
Recorte de Imágenes con MATLAB
Aún no hay calificaciones
Recorte de Imágenes con MATLAB
114 páginas
Introducción a Modelos de Lenguaje LLM
100% (1)
Introducción a Modelos de Lenguaje LLM
14 páginas
Implementación de microservicios en Python
100% (1)
Implementación de microservicios en Python
8 páginas
Guía Ejercicios Machine Learning
Aún no hay calificaciones
Guía Ejercicios Machine Learning
5 páginas
Algoritmos de Clasificación: Árboles y Redes
Aún no hay calificaciones
Algoritmos de Clasificación: Árboles y Redes
42 páginas
Introducción a Redes Neuronales Convolucionales
Aún no hay calificaciones
Introducción a Redes Neuronales Convolucionales
32 páginas
Introducción a DevOps y su Metodología
Aún no hay calificaciones
Introducción a DevOps y su Metodología
14 páginas
Procesamiento de Big Data: Batch y Real-Time
100% (1)
Procesamiento de Big Data: Batch y Real-Time
65 páginas
Sistemas de Recomendación IA
Aún no hay calificaciones
Sistemas de Recomendación IA
15 páginas
Tutorial Básico de PyTorch y Tensores
100% (2)
Tutorial Básico de PyTorch y Tensores
3 páginas
Guía de Despliegue Flutter en AppStores
Aún no hay calificaciones
Guía de Despliegue Flutter en AppStores
21 páginas
Modelos de Regresión y Aprendizaje Automático
Aún no hay calificaciones
Modelos de Regresión y Aprendizaje Automático
102 páginas
Gramáticas y Lenguajes Libres de Contexto
Aún no hay calificaciones
Gramáticas y Lenguajes Libres de Contexto
28 páginas
Buenas Prácticas SQL Server 2005
Aún no hay calificaciones
Buenas Prácticas SQL Server 2005
30 páginas
Laboratorio 4 PDF
Aún no hay calificaciones
Laboratorio 4 PDF
20 páginas
Herramientas Modelado Procesos
Aún no hay calificaciones
Herramientas Modelado Procesos
121 páginas
El Proceso Unificado de Desarrollo de Software - Jacobson - Booch - Rumbaugh
Aún no hay calificaciones
El Proceso Unificado de Desarrollo de Software - Jacobson - Booch - Rumbaugh
458 páginas
Libro de Modelos Lineales
Aún no hay calificaciones
Libro de Modelos Lineales
262 páginas
Python para Excel - 1
Aún no hay calificaciones
Python para Excel - 1
19 páginas
Métodos de Ensambles: Bagging, RF y Boosting
Aún no hay calificaciones
Métodos de Ensambles: Bagging, RF y Boosting
78 páginas
Presentacion - Random Forest
Aún no hay calificaciones
Presentacion - Random Forest
15 páginas
Aprendizaje Supervisado en Machine Learning
Aún no hay calificaciones
Aprendizaje Supervisado en Machine Learning
15 páginas
Algoritmos de Clasificación y Regresión
Aún no hay calificaciones
Algoritmos de Clasificación y Regresión
45 páginas
Modelos de Aprendizaje Automatico Mediante Arboles de Decision
Aún no hay calificaciones
Modelos de Aprendizaje Automatico Mediante Arboles de Decision
22 páginas
MUIAEI AA 2024 11 17 Tema 3
Aún no hay calificaciones
MUIAEI AA 2024 11 17 Tema 3
30 páginas
Ejercicios de Cálculo I: Funciones y Sucesiones
Aún no hay calificaciones
Ejercicios de Cálculo I: Funciones y Sucesiones
4 páginas
Programa Control de Procesos 02.2019
Aún no hay calificaciones
Programa Control de Procesos 02.2019
4 páginas
Pruebas de Hipótesis para Medias
Aún no hay calificaciones
Pruebas de Hipótesis para Medias
17 páginas
Guía de Estudio Lógica I UNED 2018/19
100% (1)
Guía de Estudio Lógica I UNED 2018/19
11 páginas
Estadistica Descriptiva PDF
Aún no hay calificaciones
Estadistica Descriptiva PDF
6 páginas
Examen Parcial de Cálculo Integral 2024
Aún no hay calificaciones
Examen Parcial de Cálculo Integral 2024
5 páginas
Banco de Preguntas ASEDEFE
Aún no hay calificaciones
Banco de Preguntas ASEDEFE
12 páginas
Tarea de Estadistica Diego
100% (1)
Tarea de Estadistica Diego
5 páginas
Control Pid Con Labview
Aún no hay calificaciones
Control Pid Con Labview
6 páginas
Técnicas Estadísticas para Laboratorios
Aún no hay calificaciones
Técnicas Estadísticas para Laboratorios
211 páginas
Marco Teorico 5
100% (2)
Marco Teorico 5
3 páginas
Clase 5 Ejercicio Aplica DZP
Aún no hay calificaciones
Clase 5 Ejercicio Aplica DZP
19 páginas
Pca Dirigida #3 Metodo Simplex Caso Maximizacion. Ucv
Aún no hay calificaciones
Pca Dirigida #3 Metodo Simplex Caso Maximizacion. Ucv
8 páginas
Optimización de Producción de Hallacas
Aún no hay calificaciones
Optimización de Producción de Hallacas
6 páginas
Resumen de Analisis I Auto Guard Ado) Auto Guard Ado) 2 Auto Guard Ado)
Aún no hay calificaciones
Resumen de Analisis I Auto Guard Ado) Auto Guard Ado) 2 Auto Guard Ado)
52 páginas
Sílabos de Investigación de Operaciones
Aún no hay calificaciones
Sílabos de Investigación de Operaciones
11 páginas
Ejercicios de Ecuaciones Diferenciales
Aún no hay calificaciones
Ejercicios de Ecuaciones Diferenciales
21 páginas
Actividad de Métodos Numéricos
75% (4)
Actividad de Métodos Numéricos
2 páginas
Taller Transformada Z para Resolver
Aún no hay calificaciones
Taller Transformada Z para Resolver
9 páginas
Pruebas de Hipotesis - Intervalos de Confianza PDF
Aún no hay calificaciones
Pruebas de Hipotesis - Intervalos de Confianza PDF
48 páginas
Teoremas de Derivación para 11° Grado
100% (2)
Teoremas de Derivación para 11° Grado
3 páginas
Informe de Pruebas de Filtración en Santa Cruz
Aún no hay calificaciones
Informe de Pruebas de Filtración en Santa Cruz
5 páginas
Competencia Indagativa en Investigación
Aún no hay calificaciones
Competencia Indagativa en Investigación
4 páginas
"Mejora de Métodos para Reducir El Tiempo Ocioso en La Línea de Producción de Palta Fresca de La Empr
Aún no hay calificaciones
"Mejora de Métodos para Reducir El Tiempo Ocioso en La Línea de Producción de Palta Fresca de La Empr
22 páginas
Análisis de Series Temporales y Pronósticos
Aún no hay calificaciones
Análisis de Series Temporales y Pronósticos
10 páginas
Definición y Proceso de Neutralización
Aún no hay calificaciones
Definición y Proceso de Neutralización
9 páginas
Derivadas y Gráficas 3D en GeoGebra
Aún no hay calificaciones
Derivadas y Gráficas 3D en GeoGebra
3 páginas
Plan de Estudios Ingeniero Físico Industrial
Aún no hay calificaciones
Plan de Estudios Ingeniero Físico Industrial
1 página
Preparación y valoración de disoluciones
Aún no hay calificaciones
Preparación y valoración de disoluciones
7 páginas