0% ont trouvé ce document utile (0 vote)
175 vues6 pages

Random Forest

La méthode des forêts aléatoires, introduite par Leo Breiman en 2001, utilise un ensemble d'arbres de décision construits aléatoirement pour réduire la variance des prévisions. Chaque arbre est construit à partir d'échantillons aléatoires et de variables sélectionnées, et les prédictions sont moyennées ou votées pour obtenir le résultat final. L'erreur de généralisation est estimée par la méthode Out-Of-Bag, qui ne nécessite pas de découpage de l'échantillon d'apprentissage.

Transféré par

lcflak630
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
175 vues6 pages

Random Forest

La méthode des forêts aléatoires, introduite par Leo Breiman en 2001, utilise un ensemble d'arbres de décision construits aléatoirement pour réduire la variance des prévisions. Chaque arbre est construit à partir d'échantillons aléatoires et de variables sélectionnées, et les prédictions sont moyennées ou votées pour obtenir le résultat final. L'erreur de généralisation est estimée par la méthode Out-Of-Bag, qui ne nécessite pas de découpage de l'échantillon d'apprentissage.

Transféré par

lcflak630
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Random Forest

• Méthode introduite par Leo Breiman en 2001,


• Une forêts aléatoire est un ensemble d'arbres de
décision binaire dans lequel a été introduit de
l'aléatoire.

• Les forêts aléatoires consistent à faire tourner en


parallèle un grand nombre (≈ 400) d’arbres de
décisions construits aléatoirement, avant de les
moyenner.

• En termes statistiques, si les arbres sont dé corrélés,


cela permet de réduire la variance des prévisions.
• Rendre les arbres construits indépendants
entre eux
• Fructueuse en grandes dimension
• Simple à mettre en œuvre
• Simplement parallélisable
• Soient {(X1,Y1),…, {(Xn,Yn)}, Pour b=1,…,B
(nombre d’arbre dans la forêt)
- Tirer un échantillon Eb aléatoirement avec
remise
- Estimer un arbre avec Eb
- Pour la construction de chaque nœud, tirer
uniformément q variables parmi p.
On obtient B arbres dont on fait la moyenne ou
qu’on fait voter(régression ou classification)
• q=
Stratégie d’élagage
• Arbre de très faible profondeur (q=2).
• Tirage aléatoire donne des arbres non
corrélés.
• L’erreur est estimée par la méthode out of bag
.
Out of bag
• Estimation de l’erreur de généralisation des RF : l'erreur
Out-Of-Bag (OOB).
Le procédé de calcul de cette erreur est le Suivant:
• Soit une observation (Xi,Yi) de l’echantillon d’apprentissage
• Considérons tout les arbres pour lesquels cette observation
n’a pas participé (OOB)
• Nous agrégeons alors uniquement les prédictions de ces
arbres pour fabriquer le prédicateur
• l'erreur commise :
- l'erreur quadratique moyenne en régression
- la proportion d'observations mal classées en
classification
• Un avantage de l'erreur OOB par rapport aux estimateurs
classiques est qu'elle ne nécessite pas de découpage de
l'échantillon d'apprentissage

Vous aimerez peut-être aussi