Machine learning et Data Mining
Introduction
Jamal Atif
[email protected]
Certificat Data Science
Université Paris-Dauphine
1 / 42 Jamal Atif CDS-Dauphine
Introduction
Plan
1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
2 / 42 Jamal Atif CDS-Dauphine
Introduction ADM, c’est quoi ?
Plan
1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
3 / 42 Jamal Atif CDS-Dauphine
Introduction ADM, c’est quoi ?
Le Machine Learning et Data
Mining, qu’est-ce que c’est ?
4 / 42 Jamal Atif CDS-Dauphine
Introduction ADM, c’est quoi ?
Question de vocabulaire... (1)
Attention :
I historiquement : plusieurs «
points de départ »
I domaine récent dont le
vocabulaire n’est pas fixé
I évolution rapide
I domaine applicatif versus
domaine de recherche
5 / 42 Jamal Atif CDS-Dauphine
Introduction ADM, c’est quoi ?
Question de vocabulaire... (2)
I reconnaissance des formes (pattern I fouille de données (data mining)
recognition) I intelligence artificielle
I analyse de données
I statistique
I apprentissage automatique (machine
I ...
learning)
⇒ domaines différents avec des intersections plus ou moins grandes
Data Sciences
6 / 42 Jamal Atif CDS-Dauphine
Introduction ADM, c’est quoi ?
Dans ce cours
Définition
Ensemble de techniques permettant l’extraction de connaissances sous la
forme de modèles à partir de grandes masses de données
Ces modèles peuvent être de nature
I descriptive : permettant d’expliquer le comportement actuel des données
I prédictive : comportement futur des données.
7 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Plan
1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
8 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Pourquoi l’ADM ?
Dans l’industrie
Carte de crédit
I tous les achats sont enregistrés
I détection des fraudes/comportement à
risque
I ciblage
I accord de prêt
I ...
Navigation Web
I historique de la navigation
I ciblage/marketing
I optimisation des sites / du traffic
I ...
9 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Pourquoi l’ADM ?
Pour la science
fMRI
I functional Magnetic Resonance Imaging
I variation de pression sanguine en réponse à des
stimuli
I brain computer interface
Big Science
I détecteur ATLAS du CERN
I 40M événements par secondes, 25Mo par événement
I 1Po de données générées par secondes à analyser
I même situation en biologie, astronomie, ...
10 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Pourquoi l’ADM ?
Pour la société
I tous les textes et discussion du
parlement européen sont
disponibles...
I ...avec leur
traduction/interprétation
I corpus parallèle : les phrases sont
alignés
I utilisable pour apprendre :
I des dictionnaires
I des systèmes de traduction
automatique
I des mémoires de traduction
I ⊕ analyse « politique » des
données
11 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Et encore
I Smart Cities
I Analyse de traffic : RFF/SNCF place des capteurs tout les 100m sur les
rails souhaitant suivre en temps réel l’état de son réseau...
I Analyse de qualité de partenariat : cadres, signature d’un contrat avec un
prestataire, pour une qualité de service et de respect de normes
nationales ou supra-nationales. =⇒ étude des publications, presse,
dépêches, tweets + information interne pour quantifier les cas de non
respect ou de respect des engagements.
I Historique des passages de frontières, etc.
12 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Pourquoi l’ADM ?
Une grosse quantité de données qui n’est jamais analysée
⇒ mettre en place des mécanismes d’analyse automatique.
Big Data
13 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
ADM : composants de base
Grande quantité de données + algorithmes efficaces
Un domaine qui s’appuie sur :
I La disponibilité de grandes quantités de données
I Si ensemble trop petit, les structures peuvent ne résulter que du hasard.
I On peut espérer qu’un gros volume de données représente bien l’univers
(échantillon).
I Des algorithmes sûrs et efficaces
I Algorithmes sûrs : fondés théoriquement, corrects.
I Efficaces en temps et en espace.
I Résultats interprétables.
I Paramètres ajustables facilement et rapidement.
14 / 42 Jamal Atif CDS-Dauphine
Types de données Exemples de données disponibles
Plan
1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
15 / 42 Jamal Atif CDS-Dauphine
Types de données Exemples de données disponibles
Les données ?
Les données peuvent être vues comme une collection d’objets
(enregistrements) et leurs attributs.
I Un attribut est une propriété et ou une caractéristique de l’objet.
I Un ensemble d’attributs décrit un objet.
16 / 42 Jamal Atif CDS-Dauphine
Types de données Exemples de données disponibles
Attribut - valeur
I La valeur d’un attribut est un nombre ou un symbole.
I Ne pas confondre attribut et valeur
Types
I Quantitative (numérique, exprime une quantité)
I Discrète (ex : nombre d’étudiants dans un cours) ou continue (ex : longueur)
I Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température,
QI)
I Qualititative
I Variable ordinale (classement à un concours, échelle de satisfaction client)
I Variable nominale (couleur de yeux, diplôme obtenu, CSP, sexe)
I Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les données
ex : les modalités de notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont
{bleu,vert,noir,...}
17 / 42 Jamal Atif CDS-Dauphine
Types de données Exemples de données disponibles
Exemple de données disponibles
I Transactions.
I Bases de données des entreprises.
I Téléphone portable.
I Satellites : espace et la terre.
I Données temporelles : cours de la bourse, météo.
I Génomique.
I Données du web.
I Données textuelles.
I ...
18 / 42 Jamal Atif CDS-Dauphine
Types de données Types de connaissances extraites
Plan
1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
19 / 42 Jamal Atif CDS-Dauphine
Types de données Types de connaissances extraites
Types de connaissances extraites
Connaissances sous la forme de modèles de permettant de
I décrire le comportement actuel des données et/ou
I prédire le comportement futur des données.
I Analyses
I e.g. distribution du trafic routier en fonction de l’heure
I Règles
I e.g. si un client a acheté un produit alors il sera intéressé par un autre.
I Attribution de scores de qualité
I e.g. score de fidélité au client
I Classification d’entités
I e.g. mauvais payeurs.
20 / 42 Jamal Atif CDS-Dauphine
Familles d’approches
Plan
1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
21 / 42 Jamal Atif CDS-Dauphine
Familles d’approches
Typologie des méthodes de fouilles de données
Typologie selon l’objectif
I Classification : examiner les caractéristiques d’un objet et lui attribuer
une classe.
e.g. diagnostic ou décision d’attribution de prêt à un client.
I Prédiction : prédire la valeur future d’un attribut en fonction d’autres
attributs.
e.g. prédire la qualité d’un client .
I Association : déterminer les attributs qui sont corrélés.
e.g. analyse du panier de la ménagère
I Segmentation : former des groupes homogènes à l’intérieur d’une
population.
22 / 42 Jamal Atif CDS-Dauphine
Familles d’approches
Typologie des méthodes de fouilles de données
Typologie selon le type de modèle obtenu
I Modèles prédictifs.
I Utilisent les données existantes et des résultats connus sur ces données pour
développer des modèles capables de prédire les valeurs d’autres données.
e.g. Prédire les clients qui ne rembourseront pas leur crédit.
I Utilisés principalement en classification et prédiction.
I Modèles descriptifs.
I Proposent des descriptions de données pour aider à la prise de décision.
I Souvent en amont de la construction de modèles prédictifs.
I Utilisés principalement en segmentation et association.
23 / 42 Jamal Atif CDS-Dauphine
Familles d’approches
Typologie des méthodes de fouilles de données
Typologie selon le type d’apprentissage utilisé
I Apprentissage supervisé : fouille supervisée
I Processus qui prend en entrée des exemples d’apprentissage contenant à la
fois des données d’entrée et de sortie.
I Les exemples d’apprentissage sont fournis avec leur classe.
I But : classer correctement un nouvel exemple.
I Utilisés principalement en classification et prédiction.
I Apprentissage non supervisé : fouille non supervisée
I Processus qui prend en entrée des exemples d’apprentissage contenant que
des données d’entrée
I Pas de notion de classe
I But : regrouper les exemples en paquets (clusters) d’exemples similaires.
I Utilisés principalement en segmentation et association.
24 / 42 Jamal Atif CDS-Dauphine
Familles d’approches
Dans ce cours, nous adoptons la typologie selon le type d’apprentissage
utilisé.
25 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Plan
1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
26 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Principe : étant donné un ensemble de données étiquetées
S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Principe : étant donné un ensemble de données étiquetées
S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Principe : étant donné un ensemble de données étiquetées
S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Principe : étant donné un ensemble de données étiquetées
S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Principe : étant donné un ensemble de données étiquetées
S = {hxi , yi i, i = 1, · · · , n}, apprendre une fonction qui associe les données aux
étiquettes :
f ∈F
X 3 x −→ y ∈ Y
I Y ≡ R : un problème de régression
I Y ≡ discrete set (e.g. {0, 1}) : un problème de classification
I F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Classification
Examiner les caractéristiques d’un objet et lui attribuer une classe (un champ
particulier à valeurs discrètes).
I Etant donnée une collection d’enregistrements (ensemble
d’apprentissage).
I Chaque enregistrement contient un ensemble d’attributs et un de ces
attributs est sa classe.
I Trouver un modèle pour l’attribut classe comme une fonction de la
valeurs des autres attributs
I But : permettre d’assigner une classe à des enregistrements inconnus de
manière aussi précise que possible.
I Un ensemble de test est utilisé pour déterminer la précision du modèle.
28 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Classification : exemple
29 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Classification : exemples d’applications
Marketing direct
I But : réduire le coût du mailing en ciblant un ensemble de
consommateurs qui achèteront vraisemblablement un nouveau
téléphone portable.
I Approche :
I Utiliser des données pour un produit similaire.
I On sait quels consommateurs ont acheté. La décision (Achat - Pas achat) est
l’attribut classe.
I Collecter diverses informations sur ce type de consommateurs.
I Cette information représente les entrées du classifier.
30 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Classification : exemples d’applications
I Détection de fraudes à la carte bancaire à l’aide des transactions et
d’informations sur le porteur du compte.
I Détection de désabonnement à l’aide des données sur d’autres
consommateurs présents ou passés.
I Catalogage du ciel : classification des objets du ciel à l’aide d’images.
31 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Plan
1 Introduction
L’ADM, qu’est-ce que c’est ?
L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraites
Exemples de données disponibles exploitées
Types de connaissances extraites
3 Familles d’approches
Apprentissage supervisé
Apprentissage non-supervisé
32 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Apprentissage non-supervisé
Principe
Etant donné un ensemble non étiqueté S = {xi , i = 1 . . . N} : modélisation de
X
33 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Partitionnement / clustering
Former des groupes homogènes à l’intérieur d’une population
I méthodes hiérarchiques
I méthodes agglomératives
I méthodes spectrales
I méthodes probabilistes
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Estimation de densité
I Méthodes paramétriques
I Méthodes non paramétriques
F PDF Contour
4
-1
-2
-2 -1 0 1 2 3 4
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Sélection / recodage de variables
I réduction de dimension, étude des corrélations (PCA, ICA, KPCA, etc)
I identification des variables pertinentes
−5 0 5
Mississippi
North Carolina
0.3
South Carolina
5
0.2
West Virginia Vermont
Georgia
Alabama Arkansas
Alaska
Kentucky
Murder Louisiana
Tennessee South Dakota
0.1
North Dakota
Montana
Maryland
Assault Maine
Comp.2
Wyoming
Virginia Idaho
New Mexico
Florida
0.0
0
New Hampshire
Michigan Iowa
Indiana Nebraska
Missouri OklahomaKansas
Rape Delaware
Texas
Oregon Pennsylvania
Wisconsin
Minnesota
−0.1
Illinois
Nevada Arizona Ohio
New York
Colorado Washington
Connecticut
−0.2
New Jersey
−5
Utah
Massachusetts
Rhode Island
California Hawaii
UrbanPop
−0.2 −0.1 0.0 0.1 0.2 0.3
Comp.1
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Analyse des corrélations
I numériques : étude des corrélations, de l’information mutuelle : A et B
sont liés
I symbolique : extraction de règles d’association : A → B
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Visualisation et exploration des données
I projections optimales dans Rp , p petit
I constructions de hiérarchies
I extraction des exemples / dimensions typiques
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Combinaisons
I estimation paramétrique + partitionnement
I réduction dimension + partitionnement
I réduction dimension + visualisation
I ...
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Partitionnement : exemples d’applications
I Segmentation de marchés .
I Segmentation de documents.
I ...
35 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Association : exemples d’applications
Entrée : Un ensemble de tickets de caisse
I Une observation = un caddie, un ticket de caisse.
I Non prise en compte de la fréquence des produits.
I Un grand nombre de produits, un grand nombre de caddies (petit sous ensemble de
l’ensemble de produits).
Sortie : Des règles
36 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Association : exemples d’application
I Marketing et promotions sur des produits.
I Gestion du supermarchés : rayonnage.
I Inventaire.
I ...
37 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Organisation de la session
Partie 1 : Approches non-supervisées
1. Introduction générale
2. Réduction de dimensionalité
I Analyse par Composantes Principales
I Décomposition en Valeurs Singulières : application à l’analyse sémantique
latente et à la recommandation
3. Partitionnement/Clustering
I Algorithme K-Moyennes
I Clustering hiérarchique
4. Règles d’association
5. Travaux Pratiques sous R : Text Mining
38 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Organisation de la session
Partie 2 : Approches supervisées
I Arbres de décision
I knn, Bayes naïf
I Techniques de validation et d’échantillonage
I Deep learning
39 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Résumé
I connaissances
masse de don- I informations
nées (corpus)
I prédictions
40 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Logiciels d’ADM
Logiciels commerciaux
I Suites logicielles SAS
(http://www.sas.com/offices/europe/france/)
I SPSS d’IBM
(http://www-01.ibm.com/software/fr/analytics/spss/)
I Solution Analytics de SAP
(http://www.sap.com/pc/analytics/strategy.html), KXEN
I ...
41 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Logiciels de data mining
Logiciels gratuits
I
I Weka : http://www.cs.waikato.ac.nz/ml/weka/
I Ensemble de classes et d’algorithmes JAVA developpés par l’Université de
Waikato en Nouvelle Zelande.
I Principaux algorithmes de data mining.
I Utilisable en ligne de commande, à l’aide d’une interface utilisateur, par
l’API.
I ScikitLearn
I
I ...
42 / 42 Jamal Atif CDS-Dauphine