Random Forest
• Méthode introduite par Leo Breiman en 2001,
• Une forêts aléatoire est un ensemble d'arbres de
décision binaire dans lequel a été introduit de
l'aléatoire.
• Les forêts aléatoires consistent à faire tourner en
parallèle un grand nombre (≈ 400) d’arbres de
décisions construits aléatoirement, avant de les
moyenner.
• En termes statistiques, si les arbres sont dé corrélés,
cela permet de réduire la variance des prévisions.
• Rendre les arbres construits indépendants
entre eux
• Fructueuse en grandes dimension
• Simple à mettre en œuvre
• Simplement parallélisable
• Soient {(X1,Y1),…, {(Xn,Yn)}, Pour b=1,…,B
(nombre d’arbre dans la forêt)
- Tirer un échantillon Eb aléatoirement avec
remise
- Estimer un arbre avec Eb
- Pour la construction de chaque nœud, tirer
uniformément q variables parmi p.
On obtient B arbres dont on fait la moyenne ou
qu’on fait voter(régression ou classification)
• q=
Stratégie d’élagage
• Arbre de très faible profondeur (q=2).
• Tirage aléatoire donne des arbres non
corrélés.
• L’erreur est estimée par la méthode out of bag
.
Out of bag
• Estimation de l’erreur de généralisation des RF : l'erreur
Out-Of-Bag (OOB).
Le procédé de calcul de cette erreur est le Suivant:
• Soit une observation (Xi,Yi) de l’echantillon d’apprentissage
• Considérons tout les arbres pour lesquels cette observation
n’a pas participé (OOB)
• Nous agrégeons alors uniquement les prédictions de ces
arbres pour fabriquer le prédicateur
• l'erreur commise :
- l'erreur quadratique moyenne en régression
- la proportion d'observations mal classées en
classification
• Un avantage de l'erreur OOB par rapport aux estimateurs
classiques est qu'elle ne nécessite pas de découpage de
l'échantillon d'apprentissage