Liste des algorithmes d'apprentissage automatique
populaires
1. Régression linéaire
Pour comprendre la fonctionnalité de travail de cet algorithme, imaginez comment
vous organiseriez des bûches de bois aléatoires dans l'ordre croissant de leur poids.
Il y a un hic; cependant, vous ne pouvez pas peser chaque bûche. Vous devez deviner
son poids simplement en regardant la hauteur et la circonférence de la grume
(analyse visuelle) et les disposer en utilisant une combinaison de ces paramètres
visibles. C'est à quoi ressemble la régression linéaire dans l'apprentissage
automatique .
Dans ce processus, une relation est établie entre les variables indépendantes et
dépendantes en les ajustant à une ligne. Cette droite est connue sous le nom de
droite de régression et représentée par une équation linéaire Y= a *X + b.
Dans cette équation :
Y – Variable dépendante
a – Pente
X – Variable indépendante
b – Intercepter
Les coefficients a et b sont dérivés en minimisant la somme de la différence au carré
de la distance entre les points de données et la droite de régression.
2. Régression logistique
La régression logistique est utilisée pour estimer des valeurs discrètes
(généralement des valeurs binaires comme 0/1) à partir d'un ensemble de variables
indépendantes. Il aide à prédire la probabilité d'un événement en ajustant les
données à une fonction logit. Elle est aussi appelée régression logit.
Ces méthodes répertoriées ci-dessous sont souvent utilisées pour aider à améliorer
les modèles de régression logistique :
inclure des termes d'interaction
éliminer les fonctionnalités
régulariser les techniques
utiliser un modèle non linéaire
3. Arbre de décision
L'algorithme d'arbre de décision dans l'apprentissage automatique est l'un des
algorithmes les plus populaires utilisés aujourd'hui ; il s'agit d'un algorithme
d'apprentissage supervisé utilisé pour classer les problèmes. Cela fonctionne bien
pour classer les variables dépendantes catégorielles et continues. Dans cet
algorithme, nous divisons la population en deux ensembles homogènes ou plus en
fonction des attributs/variables indépendantes les plus significatifs.
4. Algorithme SVM (Support Vector Machine)
L'algorithme SVM est une méthode d'algorithme de classification dans laquelle vous
tracez des données brutes sous forme de points dans un espace à n dimensions (où
n est le nombre d'entités dont vous disposez). La valeur de chaque caractéristique
est ensuite liée à une coordonnée particulière, ce qui facilite la classification des
données. Des lignes appelées classificateurs peuvent être utilisées pour diviser les
données et les tracer sur un graphique.
5. Algorithme naïf de Bayes
Un classificateur Naive Bayes suppose que la présence d'une caractéristique
particulière dans une classe n'est pas liée à la présence de toute autre
caractéristique.
Même si ces caractéristiques sont liées les unes aux autres, un classificateur Naive
Bayes considérerait toutes ces propriétés indépendamment lors du calcul de la
probabilité d'un résultat particulier.
Un modèle bayésien naïf est facile à construire et utile pour les ensembles de
données volumineux. C'est simple et on sait qu'il surpasse même les méthodes de
classification les plus sophistiquées.
6. Algorithme KNN (K-plus proches voisins)
Cet algorithme peut être appliqué à la fois aux problèmes de classification et de
régression. Apparemment, dans l'industrie de la science des données, il est plus
largement utilisé pour résoudre les problèmes de classification. C'est un algorithme
simple qui stocke tous les cas disponibles et classe tous les nouveaux cas en
prenant un vote majoritaire de ses k voisins. Le cas est alors affecté à la classe avec
laquelle il a le plus de points communs. Une fonction de distance effectue cette
mesure.
KNN peut être facilement compris en le comparant à la vie réelle. Par exemple, si
vous voulez des informations sur une personne, il est logique d'en parler à ses amis
et collègues !
Éléments à prendre en compte avant de sélectionner l'algorithme K Nearest
Neighbors :
KNN est coûteux en calcul
Les variables doivent être normalisées, sinon des variables de plage plus
élevée peuvent biaiser l'algorithme
Les données doivent encore être prétraitées.
7. K-Means
C'est un algorithme d'apprentissage non supervisé qui résout les problèmes de
clustering. Les ensembles de données sont classés en un nombre particulier de
clusters (appelons ce nombre K) de telle sorte que tous les points de données d'un
cluster soient homogènes et hétérogènes par rapport aux données des autres
clusters.
Comment K-means forme des clusters :
L' algorithme K-means sélectionne k nombre de points, appelés centroïdes,
pour chaque cluster.
Chaque point de données forme un cluster avec les centroïdes les plus
proches, c'est-à-dire K clusters.
Il crée maintenant de nouveaux centroïdes basés sur les membres de
cluster existants.
Avec ces nouveaux centroïdes, la distance la plus proche pour chaque point
de données est déterminée. Ce processus est répété jusqu'à ce que les
centroïdes ne changent pas.
8. Algorithme de forêt aléatoire
Un ensemble d'arbres de décision s'appelle une forêt aléatoire . Pour classer un
nouvel objet en fonction de ses attributs, chaque arbre est classé et l'arbre « vote »
pour cette classe. La forêt choisit la classification ayant le plus de votes (sur tous les
arbres de la forêt).
Chaque arbre est planté et cultivé comme suit :
Si le nombre de cas dans l'ensemble d'apprentissage est N, alors un
échantillon de N cas est tiré au hasard. Cet échantillon sera l'ensemble de
formation pour la croissance de l'arbre.
S'il y a M variables d'entrée, un nombre m<<M est spécifié tel qu'à chaque
nœud, m variables sont sélectionnées au hasard parmi les M, et la meilleure
répartition sur ce m est utilisée pour diviser le nœud. La valeur de m est
maintenue constante pendant ce processus.
Chaque arbre est cultivé dans la mesure la plus substantielle possible. Il n'y
a pas de taille.
9. Algorithmes de réduction de dimensionnalité
Dans le monde d'aujourd'hui, de grandes quantités de données sont stockées et
analysées par des entreprises, des agences gouvernementales et des organismes de
recherche. En tant que data scientist, vous savez que ces données brutes
contiennent beaucoup d'informations - le défi consiste à identifier des modèles et
des variables significatifs.
Les algorithmes de réduction de dimensionnalité comme l'arbre de décision, l'analyse
factorielle, le rapport de valeurs manquantes et la forêt aléatoire peuvent vous aider à
trouver des détails pertinents.
10. Algorithme de renforcement de gradient et algorithme AdaBoosting
Ce sont des algorithmes de boost utilisés lorsque des charges massives de données
doivent être traitées pour faire des prédictions avec une grande précision. Le
boosting est un algorithme d'apprentissage d'ensemble qui combine la puissance
prédictive de plusieurs estimateurs de base pour améliorer la robustesse.
En bref, il combine plusieurs prédicteurs faibles ou moyens pour créer un prédicteur
fort. Ces algorithmes de boost fonctionnent toujours bien dans les compétitions de
science des données comme Kaggle, AV Hackathon, CrowdAnalytix. Ce sont les
algorithmes d'apprentissage automatique les plus appréciés aujourd'hui. Utilisez-les,
ainsi que les codes Python et R, pour obtenir des résultats précis.
Conclusion
Si vous voulez faire carrière dans l'apprentissage automatique , commencez tout de
suite. Le domaine s'étend, et plus tôt vous comprendrez la portée des outils
d'apprentissage automatique, plus tôt vous serez en mesure de fournir des solutions
à des problèmes de travail complexes. Cependant, si vous avez de l'expérience dans
le domaine et que vous souhaitez dynamiser votre carrière, vous pouvez suivre le
programme d'études supérieures en IA et en apprentissage automatique en
partenariat avec l'Université Purdue en collaboration avec IBM. Ce programme vous
donne une connaissance approfondie de Python , de l'algorithme d'apprentissage en
profondeur avec le flux Tensor, du traitement du langage naturel, de la
reconnaissance vocale, de la vision par ordinateur et de l'apprentissage par
renforcement.