Détection des Attaques Web par
le Machine Learning
Création d'un IDS intelligent pour la
cybersécurité web
Sommaire
• 1. Introduction
• 2. Les attaques web
• 3. Systèmes de détection d'intrusion (IDS)
• 4. Approche basée sur le ML
• 5. Architecture de la solution
• 6. Prétraitement des données
• 7. Modèles de Machine Learning
• 8. Résultats
• 9. Avantages et limites
Introduction
• • Les cyberattaques ciblant les applications
web sont en hausse.
• • Il est essentiel de détecter les
comportements malveillants rapidement.
• • Les systèmes de détection d'intrusion (IDS)
traditionnels ont leurs limites.
• • L’Intelligence Artificielle offre une détection
plus intelligente et adaptative.
Les types d'attaques web
fréquentes
• • XSS (Cross Site Scripting)
• • Injections SQL
• • Brute Force
• • Inclusion de fichiers
• • Attaques par déni de service (DoS)
• • Attaques Zero-Day
Systèmes de Détection d’Intrusion
(IDS)
• • IDS : logiciel qui surveille les activités réseau
pour détecter les comportements suspects.
• • IDS basé sur les signatures : détecte les
attaques connues.
• • IDS basé sur les anomalies : détecte les
comportements inhabituels.
• • Objectif : alerter ou bloquer les intrusions.
Pourquoi utiliser le Machine
Learning ?
• • Capacité à apprendre les comportements
normaux/malveillants.
• • Adaptabilité à de nouvelles attaques.
• • Réduction des faux positifs.
• • Possibilité de traiter un grand volume de
données.
Architecture de la solution
proposée
• 1. Collecte de données : journaux HTTP/S,
requêtes réseau.
• 2. Prétraitement : nettoyage, vectorisation,
normalisation.
• 3. Entraînement : modèles ML (Random
Forest, SVM...)
• 4. Évaluation : précision, F1-score, etc.
• 5. Déploiement : en environnement réel.
Prétraitement des données
• • Nettoyage des données : suppression des
doublons, données inutiles
• • Encodage des chaînes : TF-IDF,
CountVectorizer
• • Normalisation : StandardScaler,
MinMaxScaler
• • Séparation en jeu d’entraînement/test
Modèles de Machine Learning
utilisés
• • Random Forest : robuste, adapté aux
données bruitées
• • SVM (Support Vector Machine) : très bon
pour la classification binaire
• • KNN : simple, mais lent sur grandes données
• • Isolation Forest : efficace pour la détection
d’anomalies
• • Réseaux de neurones : capacité à modéliser
des patterns complexes
Résultats de l’expérimentation
• • Jeu de données : HTTP Dataset (CICIDS,
KDDCup...)
• • Meilleur modèle : Random Forest avec 97%
de précision
• • Métriques utilisées : accuracy, recall,
precision, F1-score
• • Bonne généralisation, détection temps réel
possible
Avantages et Limites
• ✅ Apprentissage automatique de nouvelles
menaces
• ✅ Réduction des faux positifs
• ✅ Détection proactive
• ❌ Besoin de beaucoup de données
d'entraînement
• ❌ Temps d'entraînement élevé pour certains
modèles
• ❌ Sensible à la qualité des données
Conclusion
• • Le ML améliore considérablement la
détection des attaques web.
• • L’IDS intelligent permet une surveillance
dynamique du trafic.
• • Nécessité d’un bon dataset et d’un système
bien calibré.
• • L’IA joue un rôle clé dans la cybersécurité
moderne.
Références
• • Khraisat, A. et al. (2019). Survey of IDS:
techniques and challenges.
• • OWASP Foundation : [Link]
• • Scikit-learn Documentation : [Link]
[Link]
• • CICIDS 2017 Dataset :
[Link]
• • MIT Lincoln Lab IDS data