MACHINE LEARNING
Mme. Asma ElAdel
A.U: 2023/2024
1
Learning?
Herbert Simon Ryszard Michalski Marvin Minsky
2023/2024 2
Définition
• Le Machine Learning se traduit par « apprentissage automatique »,
une technologie d’intelligence artificielle permettant aux
ordinateurs d’apprendre par eux-mêmes en fonction d’un
historique. Au cœur de cette technologie, des algorithmes.
2023/2024 3
IA vs. ML vs. DL
2023/2024 4
Deep Learning (DL)
Machine Learning (ML)
2023/2024 5
Définition
• Le machine learning reproduit un comportement grâce à des
algorithmes d’apprentissage alimentés eux-mêmes par
d’immenses sources d’informations.
• L’ordinateur s’entraîne et s’améliore, d’où le mot apprentissage, il
« apprend » à partir de données structurées et en extrait du savoir.
2023/2024 6
Qu’est-ce qu’une donnée structurée ?
Caractéristiques
Préparées dans un format spécifique,
Standardisé et précis
Facilement accessibles dans des bases de données relationnelles.
Les DS représentent près de 20% de toutes les données disponibles sur la planète.
Elles sont gérées par SQL (Structured Query Language) et peuvent être stockées dans une
table avec des lignes et des colonnes dans une base de données SQL.
Il s’agit d’un type de données défini.
Les entrepôts de données (Data warehouses) sont fréquemment utilisés pour stocker des
données structurées (des BD relationnelles utilisants SQL).
Exemple: Les données de structure générées par l’homme sont principalement les
informations du client telles que le nom, l’adresse ou même des feuilles de calcul.
2023/2024 7
Données structurées
Avantages
• Les données structurées (DS) nécessitent moins de traitement par
les êtres humains pour être rendues utiles.
• Plus précises.
• Plus sécurisées car toutes les informations sensibles sont chiffrées
avant d’être stockées dans des bases de données.
• Elles sont faciles à analyser à la fois par les humains et les
algorithmes car elles sont souvent quantitatives.
• Les DS ne nécessitent pas un espace de stockage énorme.
Limite: manque de flexibilité au niveau des données .
2023/2024 8
Qu’est-ce qu’une donnée non structurée ?
Caractéristiques
Elles n’ont pas d’ordre identifiable.
Elles n’ont pas de format prédéfini et peuvent être trouvées dans divers formats.
Selon un rapport, 80% des données ne sont pas structurées.
Il peut s’agir de mots, d’images, d’audio ou de vidéo – tout ce qui n’est pas
prédéfini par une base de données et stocké de manière organisée, et donc ce
type de données peut être collecté rapidement et facilement.
Elles sont stockées dans des « lac de données » utilisants NoSQL.
Exemple: les enregistrements téléphoniques et les interactions sur les réseaux
sociaux (publications Facebook, tweets, Instagram). Elles sont également
connues sous le nom de « texte libre ».
2023/2024 9
Données non structurées
Avantages
• Aucune limitation sur ce qui peut être inclus – donc en théorie, plus
flexible que les données structurées.
• Accessibilité potentiellement plus élevée.
• Les données non structurées ont un avantage en matière de mise à
l’échelle (la capacité de gérer d’énormes quantités d’informations).
• Les données non structurées sont plus faciles à mettre à jour et à modifier.
• Dans les cas où il y a un manque de normalisation, il peut être préférable
d’appliquer des données non structurées.
Limite: Les données sont non structurées .
2023/2024 10
Un data lake c’est quoi ?
Un data lake ou “lac de données” est un
emplacement de stockage centralisé contenant
des données massives, provenant d'un grand
nombre de sources, utilisée par le big data.
Ces données sont gardées dans leurs formats
originaux ou sont très peu transformées.
Le lac de données donne la priorité au stockage
rapide et volumineux de données hétérogènes en
adoptant une architecture en cluster.
2023/2024 11
Types de données dans un « data lake »
• On peut avoir aussi bien:
Des données structurées (classeurs Excel, tables issues de
bases de données, …) que
Des données non-structurées (vidéo, son, pdf, …) ou
Des données semi-structurées (logs machine aux formats Json
ou Xml par exemple) stockées bien souvent dans leur format
natif.
2023/2024 12
La cybernétique :
la fin de l’humanité ?
2023/2024 13
La cybernétique
La cybernétique a pour objectif de dupliquer la raison humaine
à l'intérieur d'une machine et d'élaborer un modèle pour
penser le cerveau, et d'autre part se rassemble à une sorte de
militantisme pour éviter la répétition.
C’est une science effrayante en soi puisqu’elle permet
d’entrevoir une société où les machines, auto-régulées voire
auto-produites, n’ont plus besoin de l’homme pour exister.
Exemples: les machines aident l’homme dans son quotidien en
exécutant des tâches ménagères par exemple)
2023/2024 14
Pourquoi le ML?
Manque d’experts humains
Contrôle industriel/de fabrication
Analyse par spectromètre de masse, conception de médicaments, découverte
astronomique
Expertise humaine en boîte noire
connaissance faciale/écriture/parole
conduire une voiture, piloter un avion
Des phénomènes en évolution rapide
notation de crédit, modélisation financière
diagnostic, détection de fraude
Besoin de personnalisation
lecteur de nouvelles personnalisé
recommandation de film/livre
2023/2024 15
ML: Dimensions & types d’apprentissage
Dimensions
Different types de feedback,
Representation,
Exploitation des connaissances.
Types d’apprentissage
Supervisé,
Non supervisé,
Par renforcement
2023/2024 16
Apprentissage supervisé
2023/2024 17
Apprentissage non supervisé
2023/2024 18
Supervised Learning vs. Unsupervised Learning
Aspect Supervised Learning Unsupervised Learning
Process Input and output variables are provided to Only input data is provided to train model. No
train model. output data is used.
Input Data Uses labeled data. Uses unlabeled data.
Algorithms Supported Supports regression algorithms, instance- Supports clustering algorithms, association
based algorithms, classification algorithms, algorithms and neural networks.
neural networks and decision trees.
Complexity Simpler. More complex.
Subjectivity Objective. Subjective.
Number of Classes Number of classes is known. Number of classes is unknown.
Primary Drawback Classifying massive data with supervised Choosing number of clusters can be
learning is difficult. subjective.
Primary Goal Train the model to predict output when Find useful insights and hidden patterns.
presented with new inputs.
2023/2024 19
Apprentissage par renforcement
2023/2024 20
Quelques Algorithmes
– Neural Networks
– Decision tree
– Ant colony algorithm
– Genetic algorithm
– Self Organizing Maps-Kohonen Maps/cards
– Naive Bayes
– Support vector machines
– K-nearest neighbors
– Convolutional Neural Networks (CNN)
2023/2024 21
Applications de Machine Learning
2023/2024
22
Exemple_Ref: Introduction to Deep Learning (Andrew NG)
Images
Image Vision features Detection
Audio
Audio Audio features Speaker ID
Text Web search …
2023/2024 23
Text Text features