Systèmes Intelligents
pour la Cybersécurité
1
Machine Learning pour la Cybersécurité
Deep Learning pour la Cybersécurité
2
Machine Learning
Introduction
Techniques de machine Learning:
Modèles linéaires : régression linéaire
Régression logistique
Plus proches voisins : KNN
Arbres de décision
Préparation des données
Evaluation des modèles
Sélection de modèles
3
Introduction
MACHINE LEARNING EST PARTOUT AUJOURD’HUI
L'invasion de l’IA
• Le marché de l’intelligence artificielle est entré dans une phase
de croissance active aussi bien sur les segments BtoC que BtoB.
• En effet, la plupart des prévisions s’accordent sur une
explosion du marché de l’IA dans les années à venir et sur son
impact profond sur nos sociétés.
• A titre d’exemple, Tractica affirme que l’IA devrait générer
près de 89,8 milliards d’euros d’ici 2025, contre seulement 4,8
en 2017. Ce qui correspond à un taux annuel moyen
d’augmentation de près de 45%.
Trois facteurs peuvent expliquer cet essor rapide.
• Premièrement, le cloud computing qui permet le stockage à distance et le partage de la puissance de calcul.
• Deuxièmement, l’open source qui encourage l’accès, la redistribution et l’enrichissement du code source
d’un logiciel.
• Et finalement, la démocratisation de la collaboration et des communautés de développeurs qui favorisent ainsi
l’enrichissement et la démocratisation des applications, notamment liées à l’IA.
4
Introduction
MACHINE LEARNING EST PARTOUT AUJOURD’HUI
Usages
• Classificateurs de spams
• Systèmes de recommandation
• Assistants pour smartphone et reconnaissance vocale
• Reconnaissance faciale et d’images
• Analyse de textes et traduction automatique
• Détection d’anomalies
• Les transports et la robotique domestique
• Voitures sans conducteur
• Nouvelle médecine
• Un nouveau type d’IHM : la conversation
• La création artistique
• Etc.
5
Introduction
QU'EST-CE QUE LE MACHINE LEARNING ?
6
Introduction
QU'EST-CE QUE LE MACHINE LEARNING ?
Les principes de l’apprentissage
L’objectif est d’apprendre en produisant de nouvelles connaissances afin d’améliorer
ses performances.
• Le manque de connaissances est comblé par l'abondance des données.
• Le machine learning consiste à déduire des connaissances en utilisant des données
dites d'entraînement.
• Un problème d'apprentissage simple mais ayant beaucoup d’applications est défini
ainsi :
« Étant donnée une collection de paires (entrées, sorties) appelées exemples
d'apprentissage, comment apprendre (élaborer) un modèle qui puisse prédire
correctement une sortie étant donnée une nouvelle entrée. » 7
Introduction
QU'EST-CE QUE LE MACHINE LEARNING ?
8
Introduction
QU'EST-CE QUE LE MACHINE LEARNING ?
9
Introduction
La donnée : un prérequis indispensable
Le machine learning (data science) est une démarche empirique qui se base sur des
données pour apporter une réponse à des problèmes.
Accessibilité des données
• L'accès aux données utiles à l'analyse n'est pas toujours aisé.
Volumétrie des données
• Certains problèmes ne donnent des résultats probants qu’à partir de plusieurs
centaines de millions d'observations (analyse de signaux faibles, car non
observables sur des ensembles de données réduits tels que ceux traités par les
études statistiques classiques)
10
Introduction
D'OÙ VIENNENT LES DONNÉES ?
Les sources de données sont multiples
Les applications
Les applications génèrent des données issues des logs, des
réseaux de capteurs, des rapports de transactions, des
traces de GPS, etc.
Les individus
Les individus produisent des données ; des photos, des
vidéos, des musiques ou encore des données sur l'état de
santé (rythme cardiaque, pression ou poids)
GAFA : Google, Amazon, Facebook et Apple. On ajoute désormais MI pour Microsoft et IBM
BATX : Baidu, Alibaba, Tencent et Xiaomi
11
Introduction
D'OÙ VIENNENT LES DONNÉES ?
Trois modes de collecte de données existent
Open Data
• Les Open Data, qui correspondent à la mise à disposition gratuite de données de la
société civile, sur des sites tels que :
• www.data.gov
• www.data.gouv.fr
• opendata.alsace.fr
• www.kaggle.com
Open API
• Les Open API (Application Programming Interface), qui sont des technologies
permettant d'accéder à des données sur Internet. Elles permettent de récupérer par
exemple des données mises à disposition par Google, Twitter, etc.
Web
• Le Web en tant que tel est lui aussi directement source de données. Pour cela, il
faut un minimum d'expertise en programmation pour être capable de faire ce que
l’on nomme du web scraping, qui consiste à récupérer des données directement à
partir des pages des sites Internet. 12
Introduction
LES MODÈLES DE MACHINE LEARNING
Les algorithmes ne sont pas tous destinés aux mêmes usages. on les classe usuellement selon plusieurs composantes
13
Introduction
Machine Learning
Apprentissage supervisé
Supervisé :
- Classifier les données,
- Prédire une valeur cible à partir d’autres données (régression)
Entraînement:
- Classification: les solutions désirées (étiquette) + données qui ne sont pas des
solutions,
Exemple:
- Classification de mail comme spam ou non spam.
- Trouver le prix d’un objet à partir de ses caractéristiques
14
Introduction
Machine Learning
Apprentissage supervisé
Supervisé
• K plus proches voisins
• Régression linéaire
• Régression logistique
• Machine à vecteur de support
• Arbres de décision et forêts aléatoires
• Réseau de neurone ...
15
Introduction
Machine Learning
Apprentissage non supervisé ou prédictif
Non supervisé ou prédictif : Le système doit apprendre sans intervention.
Entraînement:
- Les données d’apprentissage ne sont pas “étiquetées”. La machine
observe ce qui passe dans le monde.
Exemple:
- Classification, prédiction, détection d’anomalies
16
Introduction
Machine Learning
Apprentissage non supervisé ou prédictif
Non supervisé ou prédictif
• Partitionnement
• K-moyennes
• Partitionnement hiérarchique
• Réseau de neurone
• Visualisation et réduction de dimension
• Analyse en composantes principales et à noyaux
• etc
17
Introduction
Machine Learning
Apprentissage par renforcement
Renforcement : Le système apprend avec un agent qui observe
l’environnement. Il accomplit des tâches et obtient des
récompenses ou pénalités. Il en déduit alors la meilleure
stratégie pour avoir un maximum de récompense.
Entraînement:
- Les données étiquetées et non étiquetées.
Exemple:
- Jeux Alpha Go DeepMind
18