0% ont trouvé ce document utile (0 vote)
114 vues6 pages

Algorithm

L'article décrit dix algorithmes d'apprentissage automatique populaires, notamment la régression linéaire, la régression logistique, les arbres de décision, les machines à vecteurs de support, Naive Bayes, les k plus proches voisins, k-means, les forêts aléatoires, la réduction de dimensionnalité et le boosting. Il explique brièvement le fonctionnement de chaque algorithme.

Transféré par

Abdallahi Sidi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
114 vues6 pages

Algorithm

L'article décrit dix algorithmes d'apprentissage automatique populaires, notamment la régression linéaire, la régression logistique, les arbres de décision, les machines à vecteurs de support, Naive Bayes, les k plus proches voisins, k-means, les forêts aléatoires, la réduction de dimensionnalité et le boosting. Il explique brièvement le fonctionnement de chaque algorithme.

Transféré par

Abdallahi Sidi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Liste des algorithmes d'apprentissage automatique

populaires

1. Régression linéaire

Pour comprendre la fonctionnalité de travail de cet algorithme, imaginez comment


vous organiseriez des bûches de bois aléatoires dans l'ordre croissant de leur poids.
Il y a un hic; cependant, vous ne pouvez pas peser chaque bûche. Vous devez deviner
son poids simplement en regardant la hauteur et la circonférence de la grume
(analyse visuelle) et les disposer en utilisant une combinaison de ces paramètres
visibles. C'est à quoi ressemble la régression linéaire dans l'apprentissage
automatique .

Dans ce processus, une relation est établie entre les variables indépendantes et
dépendantes en les ajustant à une ligne. Cette droite est connue sous le nom de
droite de régression et représentée par une équation linéaire Y= a *X + b.

Dans cette équation :

 Y – Variable dépendante

 a – Pente

 X – Variable indépendante

 b – Intercepter

Les coefficients a et b sont dérivés en minimisant la somme de la différence au carré


de la distance entre les points de données et la droite de régression.

2. Régression logistique

La régression logistique est utilisée pour estimer des valeurs discrètes


(généralement des valeurs binaires comme 0/1) à partir d'un ensemble de variables
indépendantes. Il aide à prédire la probabilité d'un événement en ajustant les
données à une fonction logit. Elle est aussi appelée régression logit.

Ces méthodes répertoriées ci-dessous sont souvent utilisées pour aider à améliorer
les modèles de régression logistique :

 inclure des termes d'interaction

 éliminer les fonctionnalités

 régulariser les techniques

 utiliser un modèle non linéaire

3. Arbre de décision

L'algorithme d'arbre de décision dans l'apprentissage automatique est l'un des


algorithmes les plus populaires utilisés aujourd'hui ; il s'agit d'un algorithme
d'apprentissage supervisé utilisé pour classer les problèmes. Cela fonctionne bien
pour classer les variables dépendantes catégorielles et continues. Dans cet
algorithme, nous divisons la population en deux ensembles homogènes ou plus en
fonction des attributs/variables indépendantes les plus significatifs.

4. Algorithme SVM (Support Vector Machine)

L'algorithme SVM est une méthode d'algorithme de classification dans laquelle vous
tracez des données brutes sous forme de points dans un espace à n dimensions (où
n est le nombre d'entités dont vous disposez). La valeur de chaque caractéristique
est ensuite liée à une coordonnée particulière, ce qui facilite la classification des
données. Des lignes appelées classificateurs peuvent être utilisées pour diviser les
données et les tracer sur un graphique.

5. Algorithme naïf de Bayes

Un classificateur Naive Bayes suppose que la présence d'une caractéristique


particulière dans une classe n'est pas liée à la présence de toute autre
caractéristique.
Même si ces caractéristiques sont liées les unes aux autres, un classificateur Naive
Bayes considérerait toutes ces propriétés indépendamment lors du calcul de la
probabilité d'un résultat particulier.

Un modèle bayésien naïf est facile à construire et utile pour les ensembles de
données volumineux. C'est simple et on sait qu'il surpasse même les méthodes de
classification les plus sophistiquées.

6. Algorithme KNN (K-plus proches voisins)

Cet algorithme peut être appliqué à la fois aux problèmes de classification et de


régression. Apparemment, dans l'industrie de la science des données, il est plus
largement utilisé pour résoudre les problèmes de classification. C'est un algorithme
simple qui stocke tous les cas disponibles et classe tous les nouveaux cas en
prenant un vote majoritaire de ses k voisins. Le cas est alors affecté à la classe avec
laquelle il a le plus de points communs. Une fonction de distance effectue cette
mesure.

KNN peut être facilement compris en le comparant à la vie réelle. Par exemple, si
vous voulez des informations sur une personne, il est logique d'en parler à ses amis
et collègues !

Éléments à prendre en compte avant de sélectionner l'algorithme K Nearest


Neighbors :

 KNN est coûteux en calcul

 Les variables doivent être normalisées, sinon des variables de plage plus
élevée peuvent biaiser l'algorithme

 Les données doivent encore être prétraitées.

7. K-Means
C'est un algorithme d'apprentissage non supervisé qui résout les problèmes de
clustering. Les ensembles de données sont classés en un nombre particulier de
clusters (appelons ce nombre K) de telle sorte que tous les points de données d'un
cluster soient homogènes et hétérogènes par rapport aux données des autres
clusters.

Comment K-means forme des clusters :

 L' algorithme K-means sélectionne k nombre de points, appelés centroïdes,


pour chaque cluster.

 Chaque point de données forme un cluster avec les centroïdes les plus
proches, c'est-à-dire K clusters.

 Il crée maintenant de nouveaux centroïdes basés sur les membres de


cluster existants.

 Avec ces nouveaux centroïdes, la distance la plus proche pour chaque point
de données est déterminée. Ce processus est répété jusqu'à ce que les
centroïdes ne changent pas.

8. Algorithme de forêt aléatoire

Un ensemble d'arbres de décision s'appelle une forêt aléatoire . Pour classer un


nouvel objet en fonction de ses attributs, chaque arbre est classé et l'arbre « vote »
pour cette classe. La forêt choisit la classification ayant le plus de votes (sur tous les
arbres de la forêt).

Chaque arbre est planté et cultivé comme suit :

 Si le nombre de cas dans l'ensemble d'apprentissage est N, alors un


échantillon de N cas est tiré au hasard. Cet échantillon sera l'ensemble de
formation pour la croissance de l'arbre.

 S'il y a M variables d'entrée, un nombre m<<M est spécifié tel qu'à chaque
nœud, m variables sont sélectionnées au hasard parmi les M, et la meilleure
répartition sur ce m est utilisée pour diviser le nœud. La valeur de m est
maintenue constante pendant ce processus.
 Chaque arbre est cultivé dans la mesure la plus substantielle possible. Il n'y
a pas de taille.

9. Algorithmes de réduction de dimensionnalité

Dans le monde d'aujourd'hui, de grandes quantités de données sont stockées et


analysées par des entreprises, des agences gouvernementales et des organismes de
recherche. En tant que data scientist, vous savez que ces données brutes
contiennent beaucoup d'informations - le défi consiste à identifier des modèles et
des variables significatifs.

Les algorithmes de réduction de dimensionnalité comme l'arbre de décision, l'analyse


factorielle, le rapport de valeurs manquantes et la forêt aléatoire peuvent vous aider à
trouver des détails pertinents.

10. Algorithme de renforcement de gradient et algorithme AdaBoosting

Ce sont des algorithmes de boost utilisés lorsque des charges massives de données
doivent être traitées pour faire des prédictions avec une grande précision. Le
boosting est un algorithme d'apprentissage d'ensemble qui combine la puissance
prédictive de plusieurs estimateurs de base pour améliorer la robustesse.

En bref, il combine plusieurs prédicteurs faibles ou moyens pour créer un prédicteur


fort. Ces algorithmes de boost fonctionnent toujours bien dans les compétitions de
science des données comme Kaggle, AV Hackathon, CrowdAnalytix. Ce sont les
algorithmes d'apprentissage automatique les plus appréciés aujourd'hui. Utilisez-les,
ainsi que les codes Python et R, pour obtenir des résultats précis.

Conclusion

Si vous voulez faire carrière dans l'apprentissage automatique , commencez tout de


suite. Le domaine s'étend, et plus tôt vous comprendrez la portée des outils
d'apprentissage automatique, plus tôt vous serez en mesure de fournir des solutions
à des problèmes de travail complexes. Cependant, si vous avez de l'expérience dans
le domaine et que vous souhaitez dynamiser votre carrière, vous pouvez suivre le
programme d'études supérieures en IA et en apprentissage automatique en
partenariat avec l'Université Purdue en collaboration avec IBM. Ce programme vous
donne une connaissance approfondie de Python , de l'algorithme d'apprentissage en
profondeur avec le flux Tensor, du traitement du langage naturel, de la
reconnaissance vocale, de la vision par ordinateur et de l'apprentissage par
renforcement.

Vous aimerez peut-être aussi