Module “Machine Learning”
Dr-ing Rym Besrour
[email protected] Introduction
et
Motivations
Rym Besrour Machine Learning 24-25 2
L’Intelligence Artificielle change tout !!
Parfois, il semble que presque chaque site web, application ou outil de productivité cite l’IA comme l’ingrédient secret
de leur recette du succès. Il est essentiel de souligner que l’IA est actuellement omniprésente dans notre vie
quotidienne, jouant un rôle significatif dans divers domaines.
Rym Besrour Machine Learning 24-25 3
L’Intelligence Artificielle
L’intelligence artificielle (IA) est une nouvelle science technique qui étudie et développe des théories, des méthodes, des
techniques et des systèmes d’application pour simuler et éteindre l’intelligence humaine.
En 1956, le concept d’IA a été proposé pour la première fois par John McCarthy, qui a défini le sujet comme « la science et
l’ingénierie de la fabrication de machines intelligentes, en particulier de programmes informatiques intelligents ».
L’IA s’intéresse à faire fonctionner les machines de manière intelligente, de la même manière que l’esprit humain. À l’heure
actuelle, l’IA est devenue un cours interdisciplinaire qui implique divers domaines.
Comment définissons-nous l’intelligence ?
Rym Besrour Machine Learning 24-25 4
Acting humanly : the Turing test ! (1950)
Si la machine parvient à convaincre l’examinateur qu’elle est un être humain pendant une durée significative, alors elle
est considérée comme ayant passé avec succès le test de Turing. En d’autres termes, elle a démontré une forme
d’intelligence indiscernable de celle d’un être humain, du moins dans le contexte spécifique du test.
Rym Besrour Machine Learning 24-25 5
L’Intelligence Artificielle est-ce nouveau ?
Rym Besrour Machine Learning 24-25 6
L’IA est-ce nouveau ?
1943 - Les fondements de l’IA avec le mathématicien britannique Alan Turing
• "Les machines peuvent-elles penser ?"
• "Qu'est-ce que l'intelligence ? »
1956 - La naissance de l'IA
• La conférence de Dartmouth marque le véritable point de départ de l’IA
• Les participants débattent de la possibilité de créer des machines capables de simuler l'intelligence humaine.
1966 - Le premier chatbot ELIZA
• ELIZA est conçue pour simuler une conversation thérapeutique.
1974-1980 : premier hiver pour l’IA
• Capacité de calcul limitée
• Taille des bases de connaissance (quasi inexistantes)
Rym Besrour Machine Learning 24-25 7
L’IA est-ce nouveau ?
1980 - L'IA dans le quotidien
• Les premières applications pratiques de l'IA commencent à émerger
• Les systèmes experts, des programmes informatiques capables de résoudre des problèmes spécifiques en imitant le
raisonnement humain, sont développés et appliqués dans des domaines tels que la médecine, le droit et l'ingénierie.
1990-2006 : second hiver pour l’IA
• Top couteux en maintenance
• Capacité de calcul insuffisante
2011 - L'avènement de l'apprentissage profond
• Le réseau neuronal convolutif (CNN) révolutionne le traitement de l’image.
• Le réseau de neurones récurrents (RNN) révolutionne le traitement du langage naturel.
Rym Besrour Machine Learning 24-25 8
L’IA est-ce nouveau ?
2012 - L'IA triomphe au Jeopardy!
Watson, un système d'IA qui remporte le célèbre jeu télévisé Jeopardy! en battant les meilleurs joueurs humains.
2016 - L'IA et la reconnaissance visuelle
L'IA bat les êtres humains dans des tâches telles que la classification d'images, la détection d'objets et la reconnaissance
faciale.
2020 - Les avancées en traitement du langage naturel
GPT (Generative Pre-trained Transformer) : générer du contenu, répondre à des questions et accomplir des tâches de
traduction…
2023 - L'IA omniprésente
Rym Besrour Machine Learning 24-25 9
Explosion des données issues de plusieurs sources
Données de comportement (utilisation du téléphone, de la carte
bancaire ,..)
Données CRM (contact avec un service client, carté de fidélité,..)
Données externes provenant des administrations (Open Data) ou des
mégabases de données privées.
Capteurs utilisés pour collecter des informations climatiques, de trafic
et de consommation.
Données de tracking sur Internet (sites visités, mots-clés recherchés …)
Contenu partagé sur Internet (blogs, photos, vidéos,…)
Opinions exprimées dans les réseaux sociaux.
Rym Besrour Machine Learning 24-25 10
Une minute sur Internet en 2020
Rym Besrour Machine Learning 24-25 11
L’explosion de l’IoT
Une croissance exponentielle du volume de données
Rym Besrour Machine Learning 24-25 12
La puissance de calcul double tous les 3, 4 mois
Rym Besrour Machine Learning 24-25 13
L’état actuel de l’adoption de l’IA à travers
le Monde et la Tunisie
L’indice mondial de l’IA repose sur 111 indicateurs, collectés à partir de 28 sources de données publiques et
privées différentes et de 62 gouvernements, répartis en sept sous piliers :
Innovation La recherche examine l’étendue de la recherche
spécialisée et des chercheurs, y compris le nombre
de publications et de citations dans des revues
universitaires crédibles.
Implémentation Le talent se concentre sur la disponibilité de praticiens
qualifiés dans les solutions d’IA Le développement se concentre sur le
développement de plateformes et d’algorithmes
fondamentaux sur lesquels reposent des projets
L’infrastructure évalue la fiabilité et l’échelle de d’IA innovants.
l’infrastructure d’accès, de l’électricité et de l’Internet aux
capacités de calcul intensif.
Investissement La stratégie gouvernementale mesure la profondeur
L’environnement opérationnel se concentre sur le de l’engagement des gouvernements nationaux en
contexte réglementaire et l’opinion publique sur l’IA faveur de l’IA, l’étude des engagements en matière de
dépenses et des stratégies nationales.
Commercial se concentre sur le niveau d’activité des
startups, les investissements et les initiatives
commerciales basées sur l’IA
Rym Besrour Machine Learning 24-25 14
L’état actuel de l’adoption de l’IA à travers
le Monde et la Tunisie
Rym Besrour Machine Learning 24-25 15
L’état actuel de l’adoption de l’IA à travers
le Monde et la Tunisie
Middle East & North Africa
Rym Besrour Machine Learning 24-25 16
L’état actuel de l’adoption de l’IA en Tunisie
La Tunisie possède :
• Un capital humain capable d’innover;
• Une disponibilité et une représentativité
des données assez respectables;
• Une capacité digitale respectable aussi.
Rym Besrour Machine Learning 24-25 17
L’état actuel de l’adoption de l’IA en Tunisie
La Tunisie doit développer de plus :
- Le cadre législatif de l’IA;
- L’infrastructure nécessaire pour l’adoption de
l’IA;
- Et la vision stratégique de l’IA pour les deux
secteurs : privé et publique
Rym Besrour Machine Learning 24-25 18
Prévision du CA du marché des applications
d’IA en Europe (en millions de dollars)
Rym Besrour Machine Learning 24-25 19
Prévision du CA du marché des applications d’IA en
Afrique et Moyen Orient (en millions de dollars)
Rym Besrour Machine Learning 24-25 20
Chapitre1
Introduction au Machine Learning
1. Définition du ML
2. Types de Données
3. Types d’apprentissage
4. Exemples d’applications
5. Méthodologies de Travail
AI vs ML vs DL
Le Machine Learning et le Deep Learning font partie de l’Intelligence Artificielle. Ces approches ont toutes deux
pour résultat de donner aux ordinateurs la capacité de prendre des décisions intelligentes.
Rym Besrour Machine Learning 24-25 22
Valoriser les données avec l’IA & DS
Prescrire Prédire
• Réponse aux appels d’offres par IA • Prédiction de la demande
• Moteur de recommandation • Maintenance prédictive
Personnaliser Contrôler
• Optimisation du marketing • Détection de Fraudes
• Prévention de l’attrition client • Surveillance automatisée des alarmes
Expliquer
• Profilage des achats
• Facteurs de performance d’une marque
Rym Besrour Machine Learning 24-25 23
Machine Learning est partout
Rym Besrour Machine Learning 24-25 24
Application : Détection de Spam
• C’est une tache de classification binaire : assigné un des
à l’entrée (ici, c’est un email)
• La classification nécessite un modèle (un classifieur)
pour déterminer quel label assigné à chaque item.
• On va étudier des algorithmes et techniques pour
concevoir de tels modèles à partir des données.
Rym Besrour Machine Learning 24-25 25
Application : Reconnaissance d’objets
Rym Besrour Machine Learning 24-25 26
1. Définition du ML
Expériences Tâches à faire Performance
Bases de données
Prix d’une maison Prédire le prix d’une maison Prix correct ?
Images Catégoriser les images Images correctement classifier ?
Transactions d’un client Regrouper les clients Regroupement cohérent ?
« Etant donné une tâche T et une mesure de performance P, on dit qu’un programme
informatique apprend à partir d’une expérience E si les résultats obtenus sur T, mesurés par P,
s’améliorent avec l’expérience E ».
Tom Mitchell, 1997
Rym Besrour Machine Learning 24-25 27
Améliorer la tâche T, par rapport à la métrique de performance P, sur la base de l'expérience E
T : Jouer aux dames
P : Pourcentage de matchs gagnés contre un adversaire arbitraire
E : Jouer à des jeux d'entraînement contre lui-même
T : Reconnaître des mots manuscrits
P : Pourcentage de mots correctement classés
E : Base de données d'images étiquetées par l'homme de mots manuscrits
T : Classer les e-mails comme spam ou légitimes
P : Pourcentage d'e-mails correctement classés
E : Base de données d’e-mails, certains avec des étiquettes données
T : Conduire sur des autoroutes à quatre voies à l'aide de capteurs de vision
P : Distance moyenne parcourue avant une erreur jugée par l'homme
E : Une séquence d'images et de commandes de direction enregistrées lors de l'observation d'un conducteur humain
Rym Besrour Machine Learning 24-25 28
1. Définition du ML
Rym Besrour Machine Learning 24-25 29
1. Définition du ML
Définition :
L’apprentissage est une modification d’un comportement sur la base d’une expérience. On parle
d’apprentissage automatique, ou Machine Learning, quand un programme a la capacité
d’apprendre sans que cette modification ne soit explicitement programmée.
On peut aussi opposer un programme classique, qui utilise une
procédure et les données qu’il reçoit en entrée pour produire en
sortie des réponses, à un programme d’apprentissage automatique,
qui utilise les données et les réponses afin de produire la procédure
qui permet d’obtenir les secondes à partir des premières.
Rym Besrour
Pourquoi utiliser le « Machine Learning » ?
Machine Learning 24-25 30
1. Définition du ML
Le machine Learning peut servir à résoudre des problèmes :
• que l’on ne sait pas résoudre (ex : prédiction d’achats …),
• que l’on sait résoudre, mais dont on ne sait formaliser en termes algorithmiques comment nous les
résolvons (ex : reconnaissance d’images ,compréhension du langage naturel) ;
• que l’on sait résoudre, mais avec des procédures beaucoup trop gourmandes en ressources
informatiques (c’est le cas par exemple de la prédiction d’interactions entre molécules de grande
taille, pour lesquelles les simulations sont très lourdes).
Le Machine Learning est donc utilisé quand les données sont abondantes
(relativement), mais les connaissances peu accessibles ou peu développées
Rym Besrour Machine Learning 24-25 31
1. Définition du ML
Le Machine Learning repose sur deux piliers fondamentaux :
• les données qui sont les exemples à partir duquel l’algorithme va apprendre.
• l’algorithme d’apprentissage, qui est la procédure que l’on fait tourner sur ces données pour produire
un modèle. On appelle entraînement le fait de faire tourner un algorithme d’apprentissage sur un jeu de
données.
Ces deux piliers sont aussi importants l’un que l’autre :
1. D’une part, aucun algorithme d’apprentissage ne pourra créer un bon modèle à partir de données qui
ne sont pas pertinentes.
2. D’autre part, un modèle appris avec un algorithme inadapté sur des données pertinentes ne pourra
pas être de bonne qualité.
Rym Besrour Machine Learning 24-25 32
2. Types de Données
o un tableau de données :
• N lignes : les individus, les objets d’étude
• P colonnes : les variables, les caractéristiques des objets
o une base de données relationnelle :
• des tables
• des liens entre les tables
o un entrepôt de données (data warehouse):
• mise en commun de bases de données
• agrégation de valeurs : nombre de commandes par client
o Documents (Big Data)
Rym Besrour Machine Learning 24-25 33
2. Types de Données
Données structurées
Numérique Catégorie
(Continu, Discret) (ordre, sans ordre)
Qualitative, Nominal
Quantitative (1, -679, 2.789, 7x105, …) Exemples: Couleur , Genre, État civil, Type de client,
Catégories de produits
Ensemble infini de valeurs possibles. Ensemble fini de valeurs possibles.
Pas de notion de distance entre les catégories:
Les opérations possibles: de comparaison,
impossible de calculer la différence ou la distance
Arithmétique,…
entre elles.
Exemples: Taille d’une personne, Score dans un
Opérations possibles: test d’égalité, de comparaison si
examen. Nombre de transactions par heure,
les valeurs sont ordonnées.
Changement du cours de l’action, ...
Rym Besrour Machine Learning 24-25 34
2. Types de Données
Vectorielles
Rym Besrour Machine Learning 24-25 35
2. Types de Données
Object
Sample
entity
Observation
Instance
case
event
row example
Rym Besrour Machine Learning 24-25 36
2. Types de Données
Attributes
Objetcs
Rym Besrour Machine Learning 24-25 37
2. Types de Données
Attribute
Variable
Field
Feature
dimension column
Rym Besrour Machine Learning 24-25 38
2. Types de Données
➢ La valeur d’un attribut est un nombre ou un symbole.
➢ Ne pas confondre attribut et valeur
➢ Quantitative (numérique, exprime une quantité)
➢ Discrète (ex : nombre d’étudiants dans un cours) ou continue (ex : longueur)
➢ Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température, QI)
➢ Qualititative
➢ Variable ordinale (classement à un concours, échelle de satisfaction client)
➢ Variable nominale (couleur de yeux, diplôme obtenu, CSP, sexe)
➢ Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les données
➢ ex : les modalités de notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont {bleu,vert,noir,...}
Rym Besrour Machine Learning 24-25 39
3. Types d’apprentissage
Rym Besrour Machine Learning 24-25 40
3. Types d’apprentissage
• Apprentissage supervisé
• Les données d’apprentissage contiennent les objectifs de prédictions (annotations)
• Apprentissage non supervisé
• Les données d’apprentissage sont brutes
• Apprentissage semi-supervisé
• Les données d’apprentissage sont partiellement annotées
• Apprentissage par renforcement
• Les prédictions sont issues d’une séquence d’actions et sont caractérisées par une mesure de
qualité.
Rym Besrour Machine Learning 24-25 41
3.1. Apprentissage supervisé
▪ Processus qui prend en entrée des exemples d’apprentissage contenant à la fois des données d’entrée
et de sortie.
▪ Les exemples d’apprentissage sont fournis avec leur classe.
▪ But : classer correctement un nouvel exemple.
▪ Utilisés principalement en classification et prédiction.
L’objectif de la machine est d’apprendre les
cibles (sorties) correctes pour de nouvelles
observations (entrées)
Rym Besrour Machine Learning 24-25 42
3.1. Apprentissage supervisé
Apprentissage supervisé : 𝔻𝑡𝑟𝑎𝑖𝑛 = 𝑥1 , 𝑦1 , … , 𝑥𝑁 , 𝑦𝑁
Algorithme Modèle
Observations de ML prédictif
𝑥𝑛 une observation ➔ entrée du système 𝑓 𝑥𝑛 = 𝑦ො
Etiquettes
𝑦𝑛 la cible correspondante
Rym Besrour Machine Learning 24-25 43
3.1. Apprentissage supervisé
Classification Régression
• Prédire la classe des observations • Prédire la valeur des observations
• La cible est un indice de classe : • La cible est un nombre réel : 𝑡𝑛 ∈ ℝ
𝑡𝑛 ∈ 1, … , 𝐶
Ex1 : reconnaissance de caractères
𝑥 = vecteur d’intensité des pixels, 𝐸𝑥1 ∶ prédiction de valeur en bourse
𝑡 = l’identité du caractère activité économique de la journée,
𝑡 = la valeur d’une action demain
Rym Besrour Machine Learning 24-25 44
3.1. Apprentissage supervisé : Classification
Il s’agit de l’apprentissage d’une tâche par un modèle en utilisant des données préalablement annotées,
labellisées ou catégorisées. Pour ce faire, les descripteurs extrait de ces données sont introduits en entrée du
modèle, et la sortie obtenue est ensuite comparée aux labels associés, qui sont également fournis. Cette
comparaison permet d’ajuster les paramètres du modèle afin de les rendre plus adaptés à la tache spécifique.
Classification binaire : Un problème d’apprentissage supervisé dans lequel
l’espace des étiquettes est binaire, autrement dit 𝑦 = 0,1 est appelé un
problème de classification binaire.
Exemples :
• Identifier si un email est un spam ou non.
• Identifier si un tableau a été peint par Picasso ou non.
• Identifier si une image contient ou non une girafe.
• Identifier si une molécule peut ou non traiter la dépression.
• Identifier si une transaction financière est frauduleuse ou non.
Rym Besrour Machine Learning 24-25 45
3.1. Apprentissage supervisé : Classification
Classification multi-classe : Un problème d’apprentissage supervisé dans lequel l’espace des étiquettes est
discret et fini, autrement dit 𝑦 = 1, 2, … , 𝐶 est appelé un problème de classification multi-classe.
Exemples :
• Identifier en quelle langue un texte est écrit.
• Identifier lequel des 10 chiffres arabes est un chiffre manuscrit.
• Identifier l’expression d’un visage parmi une liste prédéfinie de possibilités (colère, tristesse, joie,
etc.).
• Identifier à quelle espèce appartient une plante.
• Identifier les objets présents sur une photographie.
Rym Besrour Machine Learning 24-25 46
3.1. Apprentissage supervisé : Régression
Dans le cadre de la régression, le processus consiste à former un modèle pour prédire une variable continue
en utilisant des données préalablement annotées ou mesurées.
Les caractéristiques extraies de ces données sont introduites en entrée du modèle, qui tente de modéliser la
relation entre ces caractéristiques et la variable cible continue.
La sortie obtenue est ensuite comparée aux valeurs réelles de la variable cible, fournies dans les données
d’entrainement. Cette comparaison permet d’ajuster les paramètres du modèle afin d’optimiser sa capacité à
prédire la variable continue.
Exemples :
• Prédire le nombre de clics sur un lien.
• Prédire le prix d’une action en bourse.
• Prédire le nombre d’utilisateurs et utilisatrices
d’un service en ligne à un moment donné.
Rym Besrour Machine Learning 24-25 47
3.2. Apprentissage non supervisé
Pendant le processus d’apprentissage non supervisé, le système ne dispose pas de jeux de données
concrets : les résultats des observations du jeux de données sont inconnus. En d’autres termes, l’objectif
d’apprentissage automatique est aveugle lorsqu’ils entrent en action.
En apprentissage non supervisé, le but est de construire un modèle qui trouve par lui-même des
points communs et des interactions entre les données d’entrée.
L’objectif principal est de découvrir des motifs, des structures et des informations cachées au
sein des données sans avoir la guidance explicite d’un ensemble de données d’entrainement
étiqueté.
𝔻𝑡𝑟𝑎𝑖𝑛 = 𝑥1 , … , 𝑥𝑁
Algorithme Modèle
Observations de ML prédictif
𝑥𝑛 une observation ➔ entrée du système 𝑓 𝑥𝑛 = 𝑦ො
Rym Besrour Machine Learning 24-25 48
3.2. Apprentissage non supervisé : clustering
Dans le contexte du clustering, il s’agit de l’apprentissage d’une tache par un modèle en utilisant des
données qui ne sont pas préalablement annotées ou labellisées. Les caractéristiques extraites de ces
données sont introduites en entrée du modèle, qui cherche à regrouper les observations similaires dans
des ensembles distincts appelés clusters. Contrairement à la classification ou à la régression, le modèle de
clustering n’est pas fourni avec des labels spécifiques pour guider le processus.
Le clustering, ou partitionnement, consiste à identifier des groupes dans les données. Cela
permet de comprendre leurs caractéristiques générales, et éventuellement d’inférer les
propriétés d’une observation en fonction du groupe auquel elle appartient.
Algorithme
Observations de ML
Rym Besrour𝑥𝑛 une observation ➔ entrée du système
Machine Learning 24-25 49
3.2. Apprentissage non supervisé : clustering
Exemples :
• La segmentation de marché consiste à identifier des groupes d’usagers ou de clients ayant un
comportement similaire. Cela permet de mieux comprendre leur profil, et cibler une campagne de
publicité, des contenus ou des actions spécifiquement vers certains groupes.
• Identifier des groupes de documents ayant un sujet similaire, sans les avoir au préalable étiquetés
par sujet.
• Identifier des groupes parmi les patients présentant les mêmes symptômes permet d’identifier des
sous-types d’une maladie, qui pourront être traités déféremment.
Rym Besrour Machine Learning 24-25 50
3.2. Apprentissage non supervisé : Détection d’anomalies
Dans le cadre de la détection d’anomalies, il s’agit de l’apprentissage d’une tâche par un modèle en
utilisant des données, où l’objectif est d’identifier des points ou des instances inhabituelles ou atypiques.
Les caractéristiques extraites de ces données sont introduites en entrée du modèle, qui cherche à
détecter les anomalies en se basant sur les schémas ou les comportements normaux présents dans les
données.
La sortie obtenue indique les points identifiés comme
étant des anomalies par le modèle. L’ajustement des
paramètres du modèle se concentre sur la capacité à
discriminer les observations normales de celles
considérées comme des anomalies.
Rym Besrour Machine Learning 24-25 51
3.2. Apprentissage non supervisé : réduction de dimension
Il s’agit de trouver une représentation des données dans un espace de dimension plus faible que celle
de l’espace dans lequel elles sont représentées à l’origine.
Cela permet de réduire les temps de calcul et l’espace mémoire nécessaire au stockage des données,
mais aussi souvent d’améliorer les performances d’un algorithme d’apprentissage supervisé entrainé
par la suite sur ces données.
Algorithme Observations
Observations de ML réduites
𝑥𝑛 une observation ➔ entrée du système
Rym Besrour Machine Learning 24-25 52
4. Exemples d’application
• Entreprise et Relation Clients :
• création de profils clients,
• ciblage de clients potentiels et nouveaux marchés …
• Finance :
• minimisation de risques financiers,
• attribution de prêts …
• Détection de fraudes pour les assurances
• Analyse des déclarations des assurés par un expert afin
d’identifier les cas de fraudes
• Applications de méthodes statistiques pour identifier les
déclarations fortement corrélées à la fraude
• Internet :
• spam, e-commerce,
• détection d’intrusion,
• web mining,
• profil de l’utilisateur…
Rym Besrour Machine Learning 24-25 53
4. Exemples d’application
• Targeting
• Stocker les séquences de clicks des visiteurs, analyser les
caractéristiques des acheteurs
• Faire du « targeting » lors de la visite d’un client potentiel
• Bio-informatique :
• analyse du génome,
• mise au point de médicaments …
• Système de recommandation
• Opportunité : les clients notent les produits ! Comment
tirer profit de ces données pour proposer des produits à
un autre client ?
• Solutions : technique dite de filtrage collaboratif pour
regrouper les clients ayant les mêmes « gouts »
Rym Besrour Machine Learning 24-25 54
4. Exemples d’application
o Opinion mining
• Exemple : analyser l’opinion des usagers sur les
produits d’une entreprise à travers les
commentaires sur les réseaux sociaux et les blogs
o Le web mining est l’application de data mining
aux données de l’internet.
Le web mining consiste à extraire des connaissances à
partir des données collectées sur Internet / les
internautes afin de mieux les connaître.
On distingue :
⮲ Le web usage mining
⮲ Le web structure mining
⮲ Le web content mining
Rym Besrour Machine Learning 24-25 55
5. Méthodologie de travail
5.1. KDD (Knowledge discovery in Databases)
o Proposé par Ossama Fayyad en 1996
o Un processus pour la fouille de données qui a bien répondu aux besoins d’entreprises, et qui est
devenu rapidement très populaire.
o KDD a comme but
l’extraction des connaissances,
des motifs valides, utiles et exploitables à partir des grandes quantités de données,
par des méthodes automatiques ou semi-automatiques.
Rym Besrour Machine Learning 24-25 56
5.1. KDD (Knowledge discovery in Databases)
Processus itératif et interactif de découverte dans les BD larges de modèles de
données valides, utiles et compréhensibles.
➢ Itératif : nécessite plusieurs passes
➢Interactif : l’utilisateur est dans la boucle du processus
➢ Valides : valables dans le futur
➢ Utiles : permettent à l’utilisateur de prendre des décisions
➢ Compréhensibles : présentation simple
Rym Besrour Machine Learning 24-25 57
5.1. KDD (Knowledge discovery in Databases)
❑ Extraction de connaissances à partir de données (KDD)
▪ Cycle de découverte d’information regroupant la conception des grandes bases de données ou
les entrepôts de données (data warehouses);
▪ Ensemble de traitements effectuer pour extraire de l’information des données;
▪ L’analyse et la fouille de données est un des traitements.
❑ Analyse et fouille de données = Data Mining
▪ Ensemble des techniques d’exploration de données permettant d’extraire des connaissances
sous la forme de modèles de description afin de :
• Décrire le comportement actuel des données
• Et/ ou Prédire le comportement futur des données.
Rym Besrour Machine Learning 24-25 58
5.1. KDD (Knowledge discovery in Databases)
Un déroulement non linéaire
➢ On constate souvent à l’étape de validation que :
➢ les performances obtenues sont insuffisantes.
➢ les utilisateurs du domaine jugent l’information inexploitable.
➢ ...
➢ Il faut donc :
➢ Choisir une autre méthode de fouille.
➢ Remettre en cause l’étape de transformation.
➢ Enrichir les données
Rym Besrour Machine Learning 24-25 59
5.1. KDD (Knowledge discovery in Databases)
5.1.1. Sélection et acquisition des données
Elle consiste à
➢ Obtenir des données en accord avec les objectifs de l’ECD.
➢ Ces données proviennent le plus souvent (mais pas toujours) de bases de production ou
d’entrepôts.
➢ Par l’utilisation d’outils de requêtage (SQL, OLAP, ...).
➢ Copie sur une machine adéquate (pour pouvoir les modifier et pour des questions de
performance)
➢ Structuration des donnés en champs typés.
Rym Besrour Machine Learning 24-25 60
5.1. KDD (Knowledge discovery in Databases)
5.1.1. Sélection et acquisition des données
Les bases de données sont souvent hétérogènes et distribuées
Problèmes !!
✔ élaborer des systèmes de requêtes efficaces
✔ choisir les échantillons à traiter
Rym Besrour Machine Learning 24-25 61
5.1. KDD (Knowledge discovery in Databases)
5.1.1. Sélection et acquisition des données
Les bases de données sont souvent
hétérogènes
Et
distribuées
Clients d ’une banque Les banques (entreprises) sont
• base de clients ayant un crédit
• base des clients ayant un compte souvent sur plusieurs sites
chèque • siège social
• base des clients titulaires d ’un compte
épargne • succursales...
• ...
Rym Besrour Machine Learning 24-25 62
5.1. KDD (Knowledge discovery in Databases)
5.1.1. Sélection et acquisition des données
Trois types d’applications pour les data warehouse:
o Traitement de l’information
Pour requêtes, analyse statistique de base, rapports, tableaux croisés,
diagrammes, graphiques
o Traitement analytique
Analyse multidimensionnelle des données
o Data mining
Découverte de connaissances et de modèles
Pour réaliser des classifications, des analyses de prédiction.
Rym Besrour Machine Learning 24-25 63
5.1. KDD (Knowledge discovery in Databases)
5.1.1. Sélection et acquisition des données
Un entrepôt de données, ou data Warehouse, est une vision centralisée et universelle de toutes les
informations d’un SI.
C'est une structure (comme une base de données) qui a pour but, contrairement aux bases de données,
de regrouper les données du SI pour des fins analytiques et pour aider à la décision stratégique.
☞Dimensions
☞Fait
Rym Besrour Machine Learning 24-25 64
5.1. KDD (Knowledge discovery in Databases)
5.1.1. Sélection et acquisition des données
☞Dimensions: les axes avec lesquels on veut faire l'analyse. Il peut y avoir une dimension client, une
dimension produit, une dimension géographie,…
☞Fait: ils sont ceux sur quoi va porter l'analyse. ils sont des tables qui contiennent des informations
opérationnelles. On aura des tables de faits pour les ventes (chiffre d'affaire net, quantités et
montants commandés, quantités facturées, quantités retournées, volumes des ventes, etc.)
Rym Besrour Machine Learning 24-25 65
5.1. KDD (Knowledge discovery in Databases)
5.1.2. Prétraitement des données
Intégration des données à partir de différentes sources
• Conversion des noms d’attributs
o Vérifier la cohérence des données
• Des contraintes spécifiques à l’application
• Résolution des incohérences
• Le cas des valeurs manquantes
➢ Nettoyer les données
➢ Corrections des doublons, des erreurs de saisie.
➢ Contrôle sur l’intégrité des domaines de valeurs : détection des valeurs aberrantes.
➢ Détection des informations manquantes
➢ Enrichissement des données
C’est la tâche la plus coûteuse
dans le processus KDD
Rym Besrour Machine Learning 24-25 66
5.1. KDD (Knowledge discovery in Databases)
5.1.2. Prétraitement des données
Ex : l’âge d’un client est exagérément élevé
Deux situations très différentes peuvent survenir
L’information est avérée, l’individu est un cas particulier
de la base de données Il s’agit d’une erreur de saisie
⮚ Soit on l’exclut de l’analyse parce qu’il ne provient pas ⮚ On peut essayer de corriger la valeur à l’aide de
de la même population que les autres observations méthodes statistiques
⮚ Soit il est inclut et on lui adjoint un traitement
particulier
Rym Besrour Machine Learning 24-25 67
5.1. KDD (Knowledge discovery in Databases)
5.1.2. Prétraitement des données
Corrections des doublons, des Intégrité de domaine Informations manquantes
erreurs de saisie
Rym Besrour Machine Learning 24-25 68
5.1. KDD (Knowledge discovery in Databases)
5.1.3. transformation des données
➢ Discrétisation des attributs numériques
• Indépendamment de la tâche de fouille de données
• Ex : établir une nouvelle tarification.
• Génération d’attributs dérivées
• Ex : bases de données des factures
➢ Sélection des attributs
• Manuellement : si les connaissances du domaine sont disponibles pour les attributs
• De façon automatique.
Rym Besrour Machine Learning 24-25 69
5.1. KDD (Knowledge discovery in Databases)
5.1.4. Exploration des données
Définition [Fayad et al. 1996]
➢ La fouille de données est l’application d’algorithmes efficaces qui identifient les motifs contenus
dans une base de données.
Les différentes tâches de fouille :
➢ Clustering
➢ Segmentation (structuration d’un ensemble de documents « web », découvertes de
communautés…)
➢ Classification (accorder un crédit, interpréter des images …)
➢ Règles d’association (Mise en rayon, promotion, améliorer la structure d’un site web…)
Rym Besrour Machine Learning 24-25 70
5.1. KDD (Knowledge discovery in Databases)
5.1.5. Evaluation et validation
➢ Evaluation des motifs par l’utilisateur
➢ Si l’évaluation n’est pas satisfaisante, alors relancer la fouille avec :
• Des paramètres différents
• D’autres méthodes
• D’autres données
➢ Si l’évaluation est positive :
• Intégrer les connaissances découvertes dans une base de connaissance
• Utiliser ces connaissances dans les futures processus KDD
Rym Besrour Machine Learning 24-25 71
5.2. SEMMA
SEMMA est une approche composée de 5 étapes séquentielles produites par SAS Institute qui est un
leader dans le domaine de production des logiciels de statistiques et d’intelligence métier.
Rym Besrour Machine Learning 24-25 72
5.2. SEMMA
1. Sample : échantillonnage des données en extrayant une partie partant d’un grand ensemble volumineux de données
suffisamment pour contenir des informations significatives, mais assez petites pour assurer la rapidité des
opérations.
2. Explore : Exploration des données pour trouver les tendances ainsi que les anomalies inattendues afin d’obtenir le
maximum d’informations.
3. Modify : Modification des données en créant, sélectionnant et transformant les variables pour focaliser le processus
de sélection du modèle.
4. Model : Création et construction des modèles appropriés afin de résoudre les problèmes d’exploration de données.
5. Assess : Evaluation des données en vérifiant l’utilité ainsi que la fiabilité des résultats du processus du Data Mining et
en évaluant ses performances.
Rym Besrour Machine Learning 24-25 73
5.3. CRISP-DM : Cross-Industry Standard Process for Data Mining
CRISP-DM (Cross-Industry Standard Process for Data Mining) est une
méthodologie conçue à l’origine pour le data mining et désormais
largement utilisée dans les projets de data science.
Elle se distingue des méthodes plus traditionnelles par sa capacité à
gérer efficacement les cycles d’exploration et d’analyse des données.
CRISP-DM structure le processus en six phases : compréhension des
affaires, compréhension des données, préparation des données,
modélisation, évaluation et déploiement.
En intégrant des principes agiles, CRISP-DM permet une adaptation
continue aux besoins évolutifs des projets, offrant ainsi un cadre
flexible et complet pour la gestion de projets en data science.
Rym Besrour Machine Learning 24-25 74
5.3. CRISP-DM : Cross-Industry Standard Process for Data Mining
•1. Business understanding
• Déterminer les objectifs d’affaires
• Résoudre un problème spécifique
• Évaluer la situation actuelle
• Convertir en un problème de data mining
• Elaborer un plan de projet
•2. Data understanding
• Collecte de données initiales
• Description des données
• Exploration des données
• Vérification de la qualité des données
• Sélection des données
3. Data preparation
• Nettoyer les données sélectionnées pour une meilleure qualité
• Transformer les données
Rym Besrour Machine Learning 24-25 75
5.3. CRISP-DM : Cross-Industry Standard Process for Data Mining
4. Modeling
• Traitement des données : ensemble d’apprentissage, ensemble de test …
• Les techniques de data mining : association, classification, clustering, prediction, ….
5. Evaluation
• Est-ce que le modèle répond aux objectifs métiers?
• Il devrait être possible de prendre des decisions après cette étape
• Tous les objectifs importants doivent être atteints
6. Deployment
• Évaluer la performance par rapport aux critères de réussite
• La réaction du marché et les changemlents des concurrents
Rym Besrour Machine Learning 24-25 76
5.3. CRISP-DM : Cross-Industry Standard Process for Data Mining
Avantages :
• Compréhension des besoins : Précise les besoins du projet avant de démarrer.
• Approche itérative : Favorise l’intégration continue et la réévaluation.
• Structure systématique : Offre un cadre organisé pour le nettoyage et la transformation des données.
Inconvénients :
• Obsolescence : Pas régulièrement mis à jour pour les évolutions récentes dans le domaine des données.
• Adaptation limitée : Moins adapté au Big Data et à l’apprentissage profond.
• Manque de gestion des priorités : Ne couvre pas la gestion des priorités et la coordination en équipe.
• Temps et ressources : Requiert un investissement important en temps et ressources pour les étapes et itérations
multiples.
• Données non structurées : Moins efficace pour les données non structurées et les analyses complexes.
Rym Besrour Machine Learning 24-25 77
5.4. IBM Master Plan
La méthodologie IBM Master Plan, également connue sous le
nom de Data Science Methodology, est une approche structurée
et cyclique pour résoudre des problèmes complexes à l’aide de
données.
IBM Master Plan se distingue de CRISP-DM par son approche plus
globale et sa forte composante de gestion des risques,
d’amélioration continue et d’intégration des pratiques agiles,
offrant ainsi une plus grande adaptabilité aux changements et aux
imprévus tout au long du projet.
La méthodologie se compose de plusieurs étapes clés, chacune
jouant un rôle essentiel dans la réussite globale d’un projet de
science des données.
Rym Besrour Machine Learning 24-25 78
5.4. IBM Master Plan
1. Compréhension du business :
• Définir le problème business : Cette étape implique une collaboration étroite avec les parties prenantes pour comprendre le
problème à résoudre et définir les objectifs du projet.
• Identifier les objectifs du projet : Clarifier ce que le projet doit accomplir et les résultats attendus.
2. Compréhension des données :
• Identifier et collecter les données : Recueillir les données nécessaires pour le projet.
• Explorer les données : Comprendre la structure, la qualité des données collectées.
3. Préparation des données :
• Nettoyer les données : Traiter les données manquantes et les valeurs aberrantes.
• Transformer les données : Mettre les données dans le bon format pour le projet.
• Préparer les données : Assurer la qualité des données pour le projet.
Rym Besrour Machine Learning 24-25 79
5.4. IBM Master Plan
4. Modélisation des données :
• Sélectionner les techniques de modélisation appropriées : Choisir les algorithmes et les méthodes de modélisation les plus
adaptés.
• Construire des modèles prédictifs : Utiliser les données pour créer des modèles prédictifs.
• Ajuster les paramètres du modèle : Optimiser les paramètres pour améliorer la performance du modèle.
5. Evaluation : ́
• Evaluer la performance du modèle : Utiliser des métriques d’évaluation pour déterminer l’efficacité du modèle.
• Améliorer le modèle : Faire des ajustements si nécessaire pour améliorer la performance.
6. Déploiement :
• Déployer le modèle en production : Intégrer le modèle dans les processus business.
• Assurer le bon fonctionnement : S’assurer que le modèle fonctionne correctement dans l’environnement de production.
7. Surveillance et maintenance :
• Surveiller la performance du modèle : Observer le modèle en production pour détecter toute dégradation de performance.
• Maintenir et améliorer le modèle : Apporter les modifications nécessaires pour maintenir et améliorer la performance du modèle.
Rym Besrour Machine Learning 24-25 80
5.4. IBM Master Plan
Avantages :
• Approche structurée : Fournit une feuille de route claire pour les projets de data science.
• Flexibilité : Permet des ajustements en cours de projet selon les nouvelles informations.
• Gestion des risques : Identifie et gère les risques de manière proactive.
• Collaboration : Favorise une communication ouverte entre l’équipe et les parties prenantes.
• Amélioration continue : Encourage l’évaluation et l’amélioration des processus.
Inconvénients :
• Complexité initiale : Peut nécessiter une formation et une mise en place complexes.
• Ressources nécessaires : Peut demander des ressources supplémentaires pour la gestion et la communication.
• Documentation lourde : Peut exiger une documentation détaillée qui peut ralentir le processus.
Rym Besrour Machine Learning 24-25 81
Machine Learning
Problématique générale
Rym Besrour Machine Learning 24-25 82
Cette photo par Auteur inconnu est soumise à la licence CC BY-SA-NC
Dans ce cours
L’apprentissage automatique est :
• une démarche de conception d’une fonction de prédiction
• par une modélisation ou programmation non explicite à partir d’exemples (signaux, images,
textes, mesures …)
Rym Besrour Machine Learning 24-25 83
Formalisation
• Donnée à interpréter (𝑥)
• Mesures, texte, image, enregistrement, vidéo ou caractéristiques extraites de …
• Prédiction (𝑦)
• Décision, choix, action, réponse, préférence, groupe, valeur …
• Echantillon (𝐷 = 𝑥𝑖 , 𝑦𝑖 )
• Exemples de données et de (bonnes) prédictions
• « Base d’apprentissage » : D
Rym Besrour Machine Learning 24-25 84
Formalisation
• Hypothèse forte : les échantillons contiennent toute l’information exploitable et utile.
• Prédicteur = « interpolateur » à partir des données 𝑫.
Rym Besrour Machine Learning 24-25 85
Deux phases
Prédiction
Données
Modèle
Inférence Résultat
Apprentissage
Base de données Estimation Modèle
Rym Besrour Machine Learning 24-25 86
Exemple : Reconnaissance de chiffres manuscrits
Comment définir les éléments ?
𝑫, 𝑾, 𝒙, 𝒚
Les fonctions d’apprentissage et de prédiction ?
𝑫 ↦ 𝑾
𝑾 ,𝒙 ↦ 𝒚
Rym Besrour Machine Learning 24-25 87
Exemple : Reconnaissance de chiffres manuscrits
Etape 1 : Choix de la base de données
• Elle existe :
• Scikit-learn
• MNIST
• SVHN
• Il faut la construire :
• Recueil de données existantes
• Expérimentations (photos, mesures, …)
Rym Besrour Machine Learning 24-25 88
Exemple : Reconnaissance de chiffres manuscrits
Etape 2 : Mise en forme des données
Rym Besrour Machine Learning 24-25 89
Exemple : Reconnaissance de chiffres manuscrits
Etape 3 : Choix de l’approche
• Quel type de fonction et de problème d’apprentissage ?
• Classification
• On connait les classes cibles ➔ apprentissage supervisé
• Nature des données ?
• Vecteurs de taille fixe mais grands ➔ algorithmes avec bon contrôle de la régularisation
• Taille de la base de données ?
• Grande (> 10000 exemples) ➔ optimisation efficace
• Nature fonctionnelle des prédicteurs ?
• Arbres de décision, SVM, réseaux de neurones …
Rym Besrour Machine Learning 24-25 90
Exemple : Reconnaissance de chiffres manuscrits
Etape 4 : Optimisation
Apprentissage =
• Définir un espace fonctionnel et un critère paramétrique (cout, …)
• Appliquer un optimiseur et régler ses paramètres
• Vérifier que l’apprentissage se passe bien
• Évaluation de la capacité de généralisation
• convergence
Rym Besrour Machine Learning 24-25 91
Exemple : Reconnaissance de chiffres manuscrits
Etape 5 : Evaluation
• Dépend du type de prédiction
• Classification
• Taux d’erreur moyen
• Matrice de confusion
• Précision/rappel
• …
• Régression
• Erreur quadratique
Rym Besrour Machine Learning 24-25 92
Environnement Python
L’environnement python :
• Anaconda (https://www.anaconda.com/)
• Jupyter Notebook (https://jupyter.org/ )
Alternatives :
• Editeur de texte + Ligne de commande
• IDE (Integrated Development Environment) : PyCharm, Viscode ...
Rym Besrour Machine Learning 24-25 93
C’est quoi Anaconda ?
Anaconda est le logiciel libre le plus facile pour réaliser des opérations de science de données (Python/R) sous
Linus, Windows et MacOS.
C’est le logiciel standard dans l’industrie pour développer, tester et entrainer des modèles sur une seule
machine. Il permet aux data scientist de :
• Télécharger rapidement plus que è500 data science packages.
• Analyser d’une manière évolutive les données, avec une performance élevée en utilisant Dask, Numpy,
Pandas …
• Visualiser les résultats en utilisant Matplolib, Bokeh, ...
• Modéliser et entrainer des algorithmes d’apprentissage automatique avec scikit-learn, tenserflow et
Theano.
Rym Besrour Machine Learning 24-25 94
C’est quoi Jupyter ?
Jupyter notebook est une application web libre qui permet la création et le partage de documents qui
contient des codes sources, équations, visualisation et du texte.
Les documents peuvent inclure des instructions de data cleaning, des transformations, des simulations,
modélisation statistique, visualisation de données, apprentissage automatique …
Jupyter notebook est inclus dans Anaconda.
Rym Besrour Machine Learning 24-25 95
Bibliothèques
Data Processing
• NumPy
• Pandas
• SciPy
Visualisation
• Matplotlib
• Seaborn
Apprentissage automatique
• Scikit-learn
• Theano/Tensorflow/Pytorch
Rym Besrour Machine Learning 24-25 96