Sommaire: Introduction Et D Efinitions
Sommaire: Introduction Et D Efinitions
Data Mining
1 Introduction et définitions
(Concis et Pratique)
2 Exploration des données
Julien Ah-Pine ([email protected])
3 Data Mining descriptif
Université Lyon 2 - IUT Lumière
4 Data Mining prédictif
L3 CESTAT 2017/2018
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 1 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 2 / 94
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 5 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 6 / 94
Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?
Une rétrospective historique (Statistiques) Une rétrospective historique (Ordinateurs, IA, CS, BD)
Une rétrospective historique (Ordinateurs, IA, CS, BD) Une rétrospective historique (Ordinateurs, IA, CS, BD)
I Années 1960 : I Années 1970 (Ko) :
(ST) Critiques du point de vue fréquentiste en statistique et renouveau (IA) Premier hiver de l’IA : bcp de désilusions, promesses non tenues,
des statistiques bayésiennes en incorporant aux modèles des arrêt des financements.
informations subjectives (a priori) sous l’impulsion de Savage. (IA) Développement par Werbos de l’algorithme de
(ST) Benzécri et Escoffier introduisent l’AFC en 1962 et initient ainsi rétro-propagation pour l’apprentissage de réseaux de neuronnes
l’école française d’analyse des données. multicouches et solution apportée aux cas non-linéairement
(IA) Critique des réseaux de neuronnes (non-solvabilité des cas séparables.
non-linéairement séparables comme XOR) et développement de (ST) Du point de vue statistique/informatique : traitement d’un plus
l’IA symbolique (science cognitive, logique, bases de grand nombre de données et notamment de variables,
connaissance...) sous l’impulsion de Minsky et McCarthy développement des statistiques multidimensionnelles et de
(inventeur de LISP) du MIT. l’analyse de données.
(IA) Age d’or de l’IA symbolique : des ordinateurs résolvent des (ST) Nelder et Wedderburn formalisent le modèle linéaire généralisé
problèmes algébriques de mots, demontrent des théorèmes dans leur livre ”Generalized Linear Models” en 1972.
géométriques, apprennnent à parler l’anglais... Beaucoup (BD) Début des bases de données relationnelles (BDR) et
d’engouement et d’investissement aux USA notamment. ordinateurs de bureau : développement par Codd (IBM) des
(BD) Avènement des disques de données (par opposition aux cartes) et BDR décrivant une approche pour stocker et requêter des données
du concept de base de données. à partir d’une base. Le langage SQL apparaı̂t fin des années 70.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 9 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 10 / 94
Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?
Une rétrospective historique (Ordinateurs, IA, CS, BD) Une rétrospective historique (Data Mining)
I Années 1980 (Mo) : Avènement du Data Mining (DM) :
(IA) Succès commercial des systèmes experts qui donnent un I Années 1990 (Go) :
renouveau à l’IA symbolique (bases de connaissance) sous (DM) Le terme Data Mining apparaı̂t au sein de la communauté BD
l’impulsion des travaux de Feigenbaum. Exemple : Mycin permet pour caractériser les besoins en aide à la décision à partir de
de diagnostiquer les maladies infectieuses du sang. données. Le domaine est stimulé par des problémes opérationnels
(IA) Quinlan introduit les arbres de décision en 1986. au sein d’entreprises. Début du marketing quantitatif et de la
(IA) Renouveau également de l’IA cybernétique suite aux travaux de gestion de la relation client (CRM).
Werbos, Rumelhart (rétro-propagation) et Hopfield (reseaux de (DM) Agrawal and Srikant introduisent l’algorithme apriori pour la
neuronnes récurrent). recherche de règles d’association dans des BD en 1994.
(CS) Ce nouvel élan est lié à l’algorithme de rétro-propagation mais (IA) Deuxième hiver de l’IA : le développement et la puissance des
également aux débuts du calcul parallèle et distribué. ordinateurs de bureau (Apple et IBM) surpasse celle des
(ST) Du côté statistique, se développent les méthodes ordinateurs programmés en LISP qui deviennent chers à
non-paramétriques (on tente de s’affranchir du biais inductif). maintenir. Nouveau gel des financements de l’industrie IA.
(BD) Les données sont stockées sur plusieurs ordinateurs de bureau. Les (www) Le web prend naissance et se développe rapidement : on passe de
besoins en analyses persistent. Les entrepôt de données 26 sites web en 1992 à prés de 10 millions de sites en 1999.
introduits par Inmon émergent à la fin des années 80. (ST) Approches innovantes en statistiques : SVM de Vapnik et Cortes,
(DM) Au même moment, le terme “Knowledge Discovery in Boosting de Freund et Schapire, Bagging et Arcing de Breiman,
Databases” est utilisé pour la 1ère fois par Piatetsky-Shapiro. LASSO de Tibshirani, GAM de Hastie, Tibshirani. . .
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 11 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 12 / 94
Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?
Une rétrospective historique (Data science et Big data) Une rétrospective historique (Data science et Big data)
(ST) Avènement du Data Science en 2001 par Cleveland dans un
Data science et big data, suites logiques des statistiques et du DM : article intitulé “Data Science : An Action Plan for Expanding the
Technical Areas of the Field of Statistics” montrant la nécessité
I Années 2000 (To) :
d’intégrer les outils de calcul scientifique dans le champs
(www) Développement du web social et des smartphones : capacités
d’expertises des statistiques. Le data science peut être vu comme
accrues de stockage et d’échange de fichiers multimédia,
les statistiques avec des outils modernes de calcul scientifique.
expansion des activités économiques du e-commerce
(BD) Introduction des bases de données NoSQL comme Bigtable de
(recommandation, analyse de traces...). Tout ceci provoque un
Google en 2004, pour le stockage distribué des données
changement de paradigme : les données sont non-structurées,
volumineuses et non-structuées.
complexes et peuvent être de très grande dimension (texte,
(CS) Débuts du calcul distribué comme MapReduce de Google pour
image. . . ), les outils informatiques et les modèles d’analyse
effectuer des requêtes et calculs sur des données non-structurées
(statistiques, IA) doivent s’adapter à ces caractéristiques.
et distribués.
(ST) Développement de la branche apprentissage statistique. I Années 2010 (Po) :
Importance des concepts biais et variance : ce qui importe c’est
(DM) Avènement du Big Data (depuis la fin des années 2000) pour le
la qualité des connaissances découvertes et/ou des prédictions
stockage, le requêtage et l’analyse de données massives mais en
obtenues et non pas l’ajustement d’un modèle à des données.
mettant l’accent sur les 4V : Volume, Variété, Vélocité et
(ST) Le livre de référence “The Elements of Statistical Learning”
Véracité. Le big data peut être vu comme du DM avec des
d’Hastie, Tibshirani et Friedman sort en 2001.
technologies modernes de stockage et de calculs distribués.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 13 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 14 / 94
Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Les différentes étapes en DM
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 15 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 16 / 94
Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM
Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM
Exploration, Transformation des données (suite) Exploration, Transformation des données (suite)
Transformer une variable quanti. en une variable quanti. :
Identifier, gérer les données manquantes : I Lorsque les variables son exprimées dans différentes échelles, celles-ci
peuvent créer un biais dans les méthodes utilisées. Il est important dans
I Si le jeu de données et suffisamment grand, on pourra :
ce cas de normaliser les variables en centrant et réduisant par exemple.
F enlever toute obs. comportant des données manquantes.
I Lorsque les variables ne satisfont pas aux hypothèses d’un modèle
I Si le jeu de données n’est pas suffisamment grand, on pourra : utilisé. Dans ce cas, transformer la variable par une fonction permet de
F remplacer une donnée manquante par une moyenne, la ramener dans les hypothèses requises. Ex : dans le modèle linéaire
F utiliser une méthode d’imputation plus élaborée. gaussien, il est requis que les variables suivent des lois normales.
Identifier et traiter les observations aberrantes : Transformer une variable quanti. en une variable quali. :
I L’étude d’une boı̂te à moustache permet d’identifier les obs. ayant des I Il est utilie de transformer une variable quanti. en quali., lorsque cela
valeurs extrêmes. facilite l’interprétation ou lorsque cela est requis par la méthode utilisée.
I Il faut étudier ces obs. et les enlever si elles peuvent causer un biais On parle de discrétisation. Elle peut être manuelle ou automatique.
dans l’estimation des méthodes utilisées : Transformer une variable quali. en une variable quali. :
F cas d’une obs. hors-norme, I Lorsque l’on a besoin de recoder les modalités (exprimées par du texte
F cas d’une obs. avec des erreurs de mesures. par exemple) d’une variable quali. en un autre format (code
numérique).
I Lorsque l’on souhaite regrouper plusieurs modalités en une seule.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 19 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 20 / 94
Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM
Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM
Validation, Visualisation et Interprétation des résultats Validation, Visualisation et Interprétation des résultats
(suite) (suite)
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 25 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 26 / 94
Introduction et définitions Exemples d’applications réelles Introduction et définitions Exemples d’applications réelles
Introduction et définitions Langage et librairies R pour le DM Introduction et définitions Langage et librairies R pour le DM
I Weka
I Daiku 9. https://www.r-project.org/
I ... 10. https://cran.r-project.org/
11. https://journal.r-project.org/
12. https://www.rstudio.com/
13. https://www.rstudio.com/resources/cheatsheets/, http://www.rdatamining.com/docs/
RDataMining-reference-card.pdf?attredirects=0&d=1, http://www.thinkr.fr/le-blog/
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 31 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 32 / 94
Introduction et définitions Langage et librairies R pour le DM Introduction et définitions Objectifs du cours
14. http://www.kdnuggets.com/2016/06/r-python-top-analytics-data-mining-data-science-software.
html
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 33 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 34 / 94
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 35 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 36 / 94
Exploration des données Commandes utiles et imports de données Exploration des données Commandes utiles et imports de données
Exploration des données Statistiques descriptives univariées et bivariées Exploration des données Statistiques descriptives univariées et bivariées
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 39 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 40 / 94
Exploration des données Statistiques descriptives univariées et bivariées Exploration des données Statistiques descriptives univariées et bivariées
Exploration des données Statistiques descriptives univariées et bivariées Exploration des données Quelques tests statistiques
Variables quanti./quanti. :
Tests d’adéquation à une loi donnée pour variable quantitative :
I Nuage de points 18 entre deux variables (plot) I Loi normale : test de Shapiro-Wilk 19 (shapiro.test)
I Nuage de points entre plusieurs couples de variables (pairs) I Loi quelconque : test de Kolmogorov-Smirnov 20 (ks.test)
Variables quali./quali. :
Tests de corrélation entre deux variables quantitatives :
I Table de contingence “graphique” (balloonplot(table) [gplots]) I Tests de Pearson ou Kendall ou Spearman (cor.test)
I Table de contingence des résidus du test de Chi2 “graphique”
(assoc(table) [vcd]) Test d’indépendance entre entre deux variables qualitatives :
Variables quantis./quali. :
I Tests du Chi2 (chisq.test)
I Coordonnées parallèles de plusieurs variables quanti. par modalité d’une Test de comparaison de populations :
variable quali. (parcoord [MASS]) I ANOVA à 1 facteur 21 (aov)
Références en-ligne :
I Test de Kruskal-Wallis 22 (kruskal.test)
I http://www.statmethods.net/graphs/scatterplot.html
I http://www.statmethods.net/advgraphs/mosaic.html 19. https://en.wikipedia.org/wiki/Shapiro%E2%80%93Wilk test
I http://www.rdatamining.com/docs/data-exploration-and-visualization-with-r 20. https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov test
21. https://en.wikipedia.org/wiki/One-way analysis of variance
18. https://en.wikipedia.org/wiki/Scatter plot 22. https://en.wikipedia.org/wiki/Kruskal%E2%80%93Wallis one-way analysis of variance
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 43 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 44 / 94
Exploration des données Quelques tests statistiques Exploration des données Manipulation et transformation de données
Exploration des données Manipulation et transformation de données Exploration des données Manipulation et transformation de données
Résumés de données (calculs d’indicateurs) avec dplyr Construction de nouvelles variables avec dplyr
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 47 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 48 / 94
Exploration des données Manipulation et transformation de données Exploration des données Manipulation et transformation de données
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 49 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 50 / 94
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 51 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 52 / 94
Data Mining descriptif Data Mining descriptif Analyse de données
Les tables de données peuvent être de différentes natures et selon le Il existe plusieurs outils en R pour faire de l’ADD :
type de variables on a une méthode particulière. I Commandes de base (svd, eigen, prcomp, princomp)
I Plusieurs librairies ([MASS], [sca], . . . )
Si les variables sont quantitatives on parle d’Analyse en Composantes I Ressource en ligne : https://cran.r-project.org/web/views/Multivariate.html
Principales (ACP). (sections “Projection methods” ou “Correspondance analysis”)
Si on étudie le croisement de deux variables qualitatives on parle Nous utiliserons principalement la librairie (française) [FactoMineR].
d’Analyse Factorielle des Correspondances Simple (AFC).
Ressources en ligne :
Si les variables (plus de deux) sont qualitatives, on parle d’Analyse I Site de la librairie : http://factominer.free.fr/.
(Factorielle) des Correspondances Multiples (ACM). I Article : http://factominer.free.fr/docs/article FactoMineR.pdf .
Si les variables sont un mélange de quanti. et quali. on parle Livre associé : F. Husson, S. Lê, J. Pages, “Analyse de données avec
d’Analyse Factorielle de Données Mixtes (AFDM). R”, Presses Universitaires de Rennes.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 55 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 56 / 94
Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique
Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique
Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique
Régression par moindres carrés ordinaires MCO Régression sur composantes principales (PCR)
On se restreint au cas où x1 , . . . , xp sont toutes quantitatives. Principe : lorsque les variables x1 , . . . , xp ne sont pas linéairement
Principe : On suppose la relation linéaire suivante indépendantes alors la méthode des MCO n’est pas identifiable. Une
y = a0 + a1 x1 + . . . + p
Panp x 2+ et pour inférer les paramètres on approche consiste à réduire l’espace de description et d’appliquer les
cherche à minimiser i=1 i (somme des carrés des résidus). MCO dans cet espace. La méthode classique consiste à faire une ACP
Remarques importantes : et de faire la régression sur les premières composantes principales.
I Si on fait de plus l’hyopothèse que i sont i.i.d. selon N (0, σ 2 ) alors on Remarques importantes :
parle de modèle linéaire gaussien. Dans ce cas, l’estimateur du I En effet, on sait que les axes principaux sont mutuellement
maximum de vraisemblance (MV) est identique à l’estimateur des
orthogonaux et il n’y a donc plus de problèmes de colinéarité.
moindres carrés ordinaires. On peut alors compléter l’estimation I Comme en ACP, on n’utilise pas ici toutes les composantes principales.
ponctuelle par des intervalles de confiance et des tests de significativité
On profite donc ici du principe de sélection d’information propre aux
(tests de Student, Fisher, . . . ).
méthodes de réduction de dimension. En théorie, la régression PCR est
I Attention ! Pour que les méthodes de statistiques inférentielles soient
donc moins sensible aux données aberrantes.
valides, il faut vérifier que les hypothèses de gaussianité, I Même si on régresse sur des composantes principales sachant qu’elles
d’indépendance et d’homoscédasticité soient vérifiées.
sont des combinaisons linéaires des variables initiales, on peut toujours
I Le théorème de Gauss-Markov nous dit que l’estimateur du MV est
se ramener à une expression du modèle en fonction de ces dernières.
celui de variance minimale parmi les estimateurs linéaires sans biais.
Commande lm. Commande pcr [pls].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 71 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 72 / 94
Data Mining prédictif Régression Data Mining prédictif Régression
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 77 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 78 / 94
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 79 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 80 / 94
Data Mining prédictif Classement Data Mining prédictif Classement
Ce qui a été évoqué précédemment aux slides concernant les Principe : la variable cible y étant discrète, les mesures d’erreur
problèmes de régression reste valable pour les problèmes de reposent principalement sur la matrice confusion qui est une table de
classement : contingence croisant la vérité terrain et les prédictions du modèle.
I l’arbitrage biais-variance et les problèmes de sous et sur-apprentissage,
Matrice de confusion dans le cas q = 2 :
I l’importance de l’erreur en généralisation,
I le protocol expérimental, l’estimation plus robuste par validation fˆ(x)
croisée de l’erreur en généralisation, Total
C1 C2
I les approches “axiomatique” et empirique pour la sélection de modèle C1 a b a+b
et l’accent mis dans ce cours sur l’approche empirique. y
C2 c d c +d
Ce qui est spécifique aux problèmes de classement : Total a+c b+d a+b+c +d =n
I les mesures d’erreur/de performance pour comparer les modèles,
I dans le cas de deux classes (q = 2), la décision de prédiction est prise I a =Nb d’objets C1 correctement catégorisés
en comparant un score et un seuil (“si score de x est supérieur à un I b =Nb d’objets C1 catégorisés en C2
seuil θ alors je mets dans la classe C1 ”). Dans ce cas, on peut utiliser un I c =Nb d’objets C2 catégorisés en C1
outil supplémentaire pour l’évaluation des modèles appelé courbe ROC. I d =Nb d’objets C2 correctement catégorisés
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 85 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 86 / 94
X = R+2 X
y
True positive rate
0.6
o o xx x x ≤ x0 x > x0
y1 oo o x x
0.4
x x y > y1 y ≤ y1x
y2 x x x
0.2
o x
x o y ≤y y > y2
2
0.0
x0
0.0 0.2 0.4 0.6 0.8 1.0
False positive rate o x
Commande rpart [rpart].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 89 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 90 / 94
Data Mining prédictif Arbres de decision et fôrets aléatoires Data Mining prédictif Arbres de decision et fôrets aléatoires