0% ont trouvé ce document utile (0 vote)
416 vues11 pages

Algorithme Random Forest : Guide SEO

L'algorithme Random Forest est présenté. Il s'agit d'une méthode d'apprentissage automatique qui construit de nombreux arbres de décision à partir des données d'entraînement et prédit la classe majoritaire. Le document décrit le fonctionnement de l'algorithme et ses applications pratiques.

Transféré par

Colan Vlad
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
416 vues11 pages

Algorithme Random Forest : Guide SEO

L'algorithme Random Forest est présenté. Il s'agit d'une méthode d'apprentissage automatique qui construit de nombreux arbres de décision à partir des données d'entraînement et prédit la classe majoritaire. Le document décrit le fonctionnement de l'algorithme et ses applications pratiques.

Transféré par

Colan Vlad
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

RANDOM FOREST

ALGORITHM

2016

Contents
1. Algorithme et la prsentation gnrale...........................................................3
2. Importance et applications pratiques..............................................................4
3. Conclusion......................................................................................................6
4.Comparaison avec autres algorithmes...............................................................7
4.1 Random Prism classificateur.......................................................................8
4.2 Random Prism pseudo-code........................................................................9
4.3 Random Forest pseudo-code.......................................................................9
4.4 Conclusion.................................................................................................10
5.Bibliographie...................................................................................................10

1. Algorithme et la prsentation gnrale


Forts alatoire est une notion de la technique gnrale des forts de
dcision alatoires qui sont un apprentissage ensemble mthode
de classification, rgression et d'autres tches, qui oprent en construisant une
multitude d'arbres de dcision au moment de la formation et de sortir de la classe
qui est le mode de des classes (classification) ou la prvision moyenne (de
rgression) des arbres individuels. Dcision alatoire forts correctes pour
l'habitude de les arbres de dcision de overfitting leur ensemble de la formation.
L'algorithme pour induire fort alatoire de Breiman a t dvelopp
par Leo Breiman et Adele Cutler, et "Forts Alatoires" est leur marque de
commerce. [6] La mthode combine "de Breiman ensachage" l'ide et la slection
alatoire de caractristiques, introduit indpendamment par Ho et Amit
et Geman afin de construire une collection d'arbres de dcision avec la variance
contrle.
Chaque arbre est construit en utilisant l'algorithme suivant:
1.
Soit le nombre de cas de formation soit N, et le nombre de variables dans le
classificateur soit M.
2.
On nous dit le nombre m de variables d'entre pour tre utilise pour
dterminer la dcision un nud de l'arbre; m devrait tre beaucoup moins que M.
3.
Choisissez un ensemble de formation pour cet arbre en choisissant n fois avec
le remplacement de tous les cas de formation disponible N (c.- prlever un chantillon
bootstrap). Utilisez le reste des cas, d'estimer l'erreur de l'arbre, en prdisant leurs classes.
4.
Pour chaque nud de l'arbre, choisissez au hasard m variables sur lesquelles
fonder la dcision ce noeud. Calculer la meilleure partition en fonction de ces m variables
de l'ensemble de la formation.
5.
Chaque arbre est entirement dvelopp et non lagus (comme cela peut tre
fait dans la construction d'un classificateur d'arbre normal).

Aujourd'hui, un algorithme d'apprentissage automatique appel Forts


Alatoires (RF) est largement considr comme un l'un des algorithmes les plus

prcises qui attire l'attention de nombreux chercheurs dans le domaine. Ce travail


vise enquter sur ses proprits, capturer le comportement sur deux ensembles de
donnes et d'valuer la performance de classification de l'algorithme.
Une fort alatoire compos d'une collection ou d'un ensemble de
simples arbres prdicteurs, chacune capable de produire une rponse lorsqu'ils sont
prsents avec un ensemble de valeurs prdictives. Pour les problmes de
classification, cette rponse prend la forme d'une appartenance de classe, qui
associe, ou classifie, un ensemble de indpendantes des valeurs prdictives avec
l'une des catgories prsentes dans la variable dpendante. En variante, pour les
problmes de rgression, la rponse de l'arbre est une estimation de la variable
dpendante tant donn les prdicteurs.
Une fort alatoire compos d'un nombre arbitraire de simples arbres, qui
sont utiliss pour dterminer le rsultat final. Pour les problmes de classification,
l'ensemble des arbres simples voter pour la classe la plus populaire. Dans le
problme de rgression, leurs rponses sont moyennes pour obtenir une
estimation de la variable dpendante. Utilisation des ensembles d'arbres peut
conduire une amlioration significative de la prcision de la prdiction.
Input: dataset T = (x, y), number of trees m, number of random features k
Output: RF, a set of grown trees
Initialize RF for i = 1 to m do
T bootstrap(T)
Tree trainDT(T, k)
add Tree to RF
end for

2. Importance et applications pratiques


Fractionnements sont choisis en fonction d'une mesure de puret:
Par exemple l'erreur quadratique (rgression), indice de Gini ou
dviance (classification)
Comment slectionner N arbres?
Construire des arbres que l'erreur ne diminue plus
4

Comment slectionner des arbres M?


Essayez de recommander dfaut, moiti d'entre eux et deux fois d'eux
et de choisir le meilleur.
A prs chaque arbre est construit, toutes les donnes sont dlabres l'arbre,
et proximits sont calcules pour chaque paire de cas. Si deux cas occupent le
mme nud terminal, la proximit est augmente d'une unit. la fin de la course,
les proximits sont normaliss en les divisant par le nombre d'arbres. Proximits
sont utiliss pour remplacer les donnes manquantes, la localisation des valeurs
aberrantes, et la production d'clairage vues faibles dimensions des donnes.
Dans chaque arbre cultiv dans la fort, mettre bas les cas hors bande et de
compter le nombre de votes exprims pour la bonne classe. Maintenant permuter
alatoirement les valeurs de m variable dans les cas hors bande et de mettre ces cas
dans l'arbre. Soustraire le nombre de votes pour la bonne classe dans les donnes
variables m permute hors bande partir du nombre de votes pour la bonne classe
dans les donnes hors bande vierges. La moyenne de ce nombre sur tous les arbres
de la fort est le score de l'importance premire pour la variable m.
Si les valeurs de cette partition d'arbre en arbre sont indpendants, alors
l'erreur standard peut tre calcule par un calcul standard. Les corrlations de ces
scores entre les arbres ont t calculs pour un certain nombre d'ensembles de
donnes et se sont avres assez faible, donc nous calculons les erreurs standard
dans la manire classique, diviser le score brut par son erreur standard pour obtenir
un z-score, ands assign un niveau de signification la normalit z-score en
supposant.
Si le nombre de variables est trs grand, les forts peuvent tre excuts une
fois avec toutes les variables, puis excutez nouveau en utilisant uniquement les
variables les plus importantes de la premire manche.
Pour chaque cas, tenir compte de tous les arbres dont il est oob. Soustraire le
pourcentage de votes pour la bonne classe dans les donnes hors bande-m-permut

variables partir du pourcentage de votes pour la bonne classe dans les donnes
hors bande vierges.
Fort alatoire se fait au dtriment d'une certaine perte de l'intelligibilit,
mais en gnral, stimule grandement la performance du modle final.
Estimation de l'importance de chaque variable:

Notons l'estimation OOB de la perte lors de l'utilisation ensemble de la


formation originale, D.

Pour chaque prdicteur xp o p {1, .., k}

Permuter alatoirement PTH prdicteur pour gnrer une nouvelle


srie d'chantillons D '= {(Y1, x'1), ..., (YN, X'n)}

Compute OOB estimation ek d'erreur de prdiction avec les nouveaux


chantillons

A mesure de l'importance du facteur prdictif xp est EK - E, l'augmentation


de l'erreur due la perturbation alatoire de la PTH prdicteur.
Le nombre d'arbres ncessaires pour une bonne performance
augmente avec le nombre de prdicteurs. La meilleure faon de dterminer
combien d'arbres sont ncessaires est de comparer les prdictions faites par
une fort de prdictions faites par un sous-ensemble d'une fort. Quand les
sous-ensembles de travail ainsi que la fort entire, vous avez suffisamment
d'arbres.

3. Conclusion

Random Forest est rapide construire. Encore plus rapide prvoir!

Slection de prdiction automatique de grand nombre de candidats

Rsistance plus de la formation

Capacit grer des donnes sans prtraitement

donnes ne doivent pas tre rchelonn, transform ou modifi

rsistant Liers sur

gestion automatique des valeurs manquantes

L'identification de cluster peut tre utilis pour gnrer des clusters base
d'arbres travers l'chantillon proximit

4.Comparaison avec autres algorithmes

Random Forest VS. Random Prism


La reprsentation de rgles de classification diffre entre le diviser pour
rgner et approches spars et conqurir. Les ensembles de rgles gnrs
par l'approche diviser pour rgner sont sous la forme d'arbres de dcision
alors que les rgles gnres par l'approche spare et conqurir sont
modulaires. Rgles modulaires ne correspondent pas ncessairement dans un
arbre de dcision et normalement ne le font pas.

L'arbre le plus simple qui peut exprimer les deux rgles

4.1 Random Prism classificateur


Le principe de base de la RF est qu'il pousse un grand nombre d'arbres de
dcision (une fort) sur des chantillons produits par ensachage, en utilisant un
sous-ensemble alatoire de l'espace de fonction pour l'valuation des scissions
chaque noeud dans chaque arbre. Si il existe une nouvelle instance de donnes
classer, chaque arbre est utilise pour produire une prdiction de la nouvelle
instance de donnes. RF tiquettes puis la nouvelle instance de donnes avec la
classe qui a obtenu la majorit des votes ''.
Les ingrdients de l'ensemble des apprenants alatoire Prism sont la
slection de sous-ensemble de la fonction alatoire de la RDF, l'ensachage et
prismes classificateur de base de RF. Utilisation Prism comme classificateur de
base est motiv par le fait que Prism est moins vulnrable des affrontements,
8

les valeurs manquantes et le bruit de l'ensemble de donnes et en gnral tend


surajustement moins par rapport aux arbres de dcision qui sont utiliss dans RF
et RDF. En particulier Prism TCS est utilis, comme PrismTCS calcul
numrique est plus efficace que le prisme d'origine tandis que dans certains cas,
la production d'une meilleure prcision.
La raison de la prcision accrue de classificateurs en sacs rside dans le
fait que le modle de classificateur composite rduit la variance des
classificateurs individuels. Le modle bootstrap plus couramment utilis pour
l'ensachage est de prendre un chantillon de taille n si n est le nombre
d'instances. Cela se traduira par des chantillons qui contiennent en moyenne
63,2% des cas de donnes d'origine.
4.2 Random Prism pseudo-code
Le pseudo-code est essentiellement Prismatics incorporant DFS et RFs
slection de sous-ensemble de la fonction alatoire. Pour l'induction de chaque
terme de rgle pour chaque rgle, un sous-ensemble alatoire frais de l'espace
de fonction est appele. Aussi le nombre de caractristiques considres pour
chaque terme de la rgle est un nombre alatoire entre 1 et M.

4.3 Random Forest pseudo-code


Candidat dimension scission: Une dimension le long de laquelle une scission peut tre
faite.
Candidat point de partage: Un des premiers points de la structure de m pour arriver
une feuille.
Split Candidat: Une combinaison d'une dimension de partage du candidat et une
position le long de cette dimension diviser.
Celles-ci sont formes en projetant chaque point de partage du candidat dans chaque
dimension de partage du candidat.
Les enfants candidats: Chaque fraction de candidat dans une feuille induit deux
enfants candidats cette feuille. Ceux-ci sont aussi appels l'enfant gauche et droite de cette
scission.
Ne (A) est un nombre de points d'estimation dans la cellule A et Y e (A) est
l'histogramme des tiquettes de ces points en A. (A) s Ns (A) et Y sont les valeurs
correspondantes provenant de points de structure .

10

4.4 Conclusion
The Prism family of algorithms has been introduced and compared with decision trees
and next the well known Random Forests approach has been reviewed.
Contrary to Random Forests and Random Decision Forests, Random Prism uses a
weighted majority voting system instead of a plain majority voting system, in order to take
the individual classifiers classification accuracy into account.
Also Random Prism does not take all classifiers into account, the user can define the
percentage of classifiers to be used for classification. Random Prism will select only the
classifiers with the highest classification accuracy for the classification task.

5.Bibliographie
http://www.datasciencecentral.com/profiles/blogs/random-forests-algorithm
https://www.quora.com/What-are-the-advantages-of-different-classificationalgorithms
http://eprints.bournemouth.ac.uk/20513/3/submittedManuscript.pdf
http://www.dabi.temple.edu/~hbling/8590.002/Montillo_RandomForests_4-22009.pdf
http://www.nickgillian.com/wiki/pmwiki.php/GRT/RandomForests
https://www.quora.com/How-does-the-random-forest-model-work-How-is-itdifferent-from-bagging-and-boosting-in-ensemble-models
http://jmlr.org/proceedings/papers/v28/denil13-supp.pdf

11

Vous aimerez peut-être aussi