Concepts et Techniques du Machine Learning
Thèmes abordés
Concepts et Techniques du Machine Learning
Thèmes abordés
Les données d'entraînement, généralement 60-80% du total, servent à ajuster les paramètres du modèle pour minimiser l'erreur . Le jeu de validation, qui représente normalement 10-20% des données, évalue la performance du modèle en cours d'entraînement et ajuste les hyperparamètres . Enfin, le jeu de test, également 10-20%, évalue la performance finale du modèle, assurant qu'il peut généraliser efficacement à de nouvelles données . Utiliser ces divisions permet de développer et d'optimiser des modèles tout en évitant des biais et l'overfitting.
L'algorithme K-Plus Proches Voisins (KNN) fonctionne en analysant un point à prédire par rapport aux 'K' points les plus proches dans l'espace des caractéristiques . Pour les tâches de classification, KNN attribue une classe au point en fonction de la majorité des classes parmi ses voisins. En régression, KNN calcule une prédiction en prenant la moyenne des valeurs de ses voisins . La simplicité de sa logique basée sur la proximité permet de s'adapter facilement à diverses formes de données sans nécessiter de modèle paramétrique préalable.
L'apprentissage supervisé implique l'entraînement avec des données d'entrée associées à des réponses, permettant de prédire des classes ou des valeurs pour de nouvelles données. Par exemple, on entraîne un modèle avec des images étiquetées pour distinguer des animaux . L'apprentissage non supervisé, en revanche, utilise uniquement des données d'entrée pour identifier des motifs ou des regroupements sans étiquettes préalables . L'apprentissage par renforcement porte sur l'interaction avec un environnement où le modèle apprend par essais et erreurs, recevant des récompenses ou des punitions selon les actions prises, notamment utilisé en jeux vidéo et robotique .
L'accuracy peut être trompeuse dans des ensembles de données déséquilibrés. Par exemple, si 95% des emails ne sont pas des spams, un modèle qui prédit systématiquement 'Non-Spam' affichera une accuracy élevée de 95%, sans pour autant être performant dans l'identification des emails 'Spam'. Cela montre que l'accuracy seule ne reflète pas toujours la capacité d'un modèle à traiter certains déséquilibres ou à bien identifier des classes importantes .
La régression linéaire prédit une variable cible en supposant une relation linéaire entre les variables indépendantes et la variable cible . La régression polynomiale, quant à elle, étend cette approche en utilisant des polynômes, permettant de modéliser des relations non linéaires. Elle est utile lorsque la relation entre les variables n'est pas strictement linéaire, offrant ainsi une plus grande flexibilité pour capturer des tendances complexes dans les données .
Les forêts aléatoires sont privilégiées par rapport aux arbres de décision uniques car elles offrent des prédictions plus robustes et précises. Une forêt aléatoire combine plusieurs arbres de décision créés avec des échantillons aléatoires des données, ce qui aide à réduire le risque d'overfitting auquel les arbres individuels sont souvent sujets. Cette méthode d'ensemble améliore généralement la précision en exploitant la diversité des arbres pour tirer une conclusion prédictive finale .
Les RNN sont conçus pour les données séquentielles car ils prennent en compte les informations temporelles en reliant chaque sortie aux états précédents, ce qui leur permet de traiter des séquences continues et de capturer des dépendances temporelles . Les RNN sont particulièrement utilisés dans des applications telles que la prédiction de séries temporelles (par exemple, les prévisions météorologiques), la modélisation linguistique, et le traitement du langage naturel. Les variantes comme les LSTM (Long Short-Term Memory) sont capables de gérer des séquences de longue durée .
Les CNN tirent parti de la structure spatiale en utilisant des couches de convolution pour détecter des motifs visuels locaux tels que des bords et des textures, essentiels pour l'analyse d'images . Ces réseaux conservent la hiérarchie spatiale des pixels grâce à des filtres qui balayant l'image, capturant ainsi les relations spatiales à différentes échelles. Les couches de pooling suivent ces convolutions pour réduire la dimensionnalité, tout en préservant les caractéristiques importantes. Cela permet aux CNN de réaliser des classifications précises même lorsque les images sont altérées ou partiellement visibles .
Les techniques de Boosting, comme XGBoost, améliorent la précision des prédictions en combinant plusieurs modèles faibles, chacun corrigant les erreurs des précédents . Cette approche iterative permet d’accroître la performance du modèle final en réduisant l'erreur de biais. XGBoost, en particulier, est apprécié pour son efficacité, sa capacité à traiter de grandes quantités de données, et ses fonctionnalités avancées qui intègrent la régularisation pour éviter l'overfitting tout en augmentant la précision .
Les SVM peuvent être inefficaces sur des ensembles de données avec des classes non distinctement séparables dans un espace linéaire. Pour surmonter ce défi, les kernels permettent de transformer les données d'origine dans un espace de dimension supérieure où une séparation linéaire devient possible. Les kernels optimisent ainsi la capacité du SVM à distinguer des classes complexes en créant un hyperplan optimal qui maximise la marge entre elles .