0% ont trouvé ce document utile (0 vote)
121 vues24 pages

Sommaire: Introduction Et D Efinitions

Ce document introduit le sujet du data mining. Il définit le data mining et explique ses origines dans plusieurs disciplines comme les statistiques, l'intelligence artificielle et les bases de données. Le document présente également une rétrospective historique de ces disciplines.

Transféré par

ss
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
121 vues24 pages

Sommaire: Introduction Et D Efinitions

Ce document introduit le sujet du data mining. Il définit le data mining et explique ses origines dans plusieurs disciplines comme les statistiques, l'intelligence artificielle et les bases de données. Le document présente également une rétrospective historique de ces disciplines.

Transféré par

ss
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Sommaire

Data Mining
1 Introduction et définitions
(Concis et Pratique)
2 Exploration des données
Julien Ah-Pine ([email protected])
3 Data Mining descriptif
Université Lyon 2 - IUT Lumière
4 Data Mining prédictif
L3 CESTAT 2017/2018

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 1 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 2 / 94

Introduction et définitions Introduction et définitions Le Data Mining c’est quoi ?

Rappel du Sommaire Une définition

Data Mining/Knowledge Discovery = Fouille de données/Découverte


de connaissances.
Définition de Wikipédia (2017) :
1 Introduction et définitions I L’exploration de données 1 , connue aussi sous l’expression de fouille
Le Data Mining c’est quoi ? de données, forage de données, prospection de données, data mining,
Les différentes étapes en DM ou encore extraction de connaissances à partir de données, a pour
Exemples d’applications réelles objet l’extraction d’un savoir ou d’une connaissance à partir de grandes
Langage et librairies R pour le DM quantités de données, par des méthodes automatiques ou
semi-automatiques.
Objectifs du cours I Elle se propose d’utiliser un ensemble d’algorithmes issus de disciplines
scientifiques diverses telles que les statistiques, l’intelligence artificielle
ou l’informatique, pour construire des modèles à partir des données,
c’est-à-dire trouver des structures intéressantes ou des motifs selon des
critères fixés au préalable, et d’en extraire un maximum de
connaissances.
1. Terme recommandé par la délégation générale à la langue française et aux langues
de France (DGLFLF)
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 3 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 4 / 94
Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?

A la croisée de plusieurs disciplines Une rétrospective historique (Probabilités)

Les probabilités comme origine des statistiques :


I 17ème siècle : Développement des calculs de probabilités avec Fermat,
Pascal, Jacques Bernouilli (loi des grands nombres)...
Le DM tire profit des STATISTIQUES
I 18ème siècle : ... poursuivi par Laplace (théorème central limite),
atouts et
Condorcet, Bernouilli et Bayes et prémices des statistiques inférentielles
complémentarités de
avec le développement du concept d’erreurs vis à vis de la moyenne du
plusieurs disciplines : BASES DE DATA INTELLIG.
ARTIF. point de vue probabiliste par Laplace.
I Statistiques (ST) DONNEES MINING
I 1ère moitié du 19ème siècle :
I Intelligence Artif. (IA)
(ST) Développement de la méthode des moindres carrés ordinaires
I Calcul scientif. (CS)
CALCUL par Legendre et Gauss ; naissance de la science statistique comme
I Base de données (BD) SCIENT.
discipline indépendante des probabilités ; ouverture du Conseil
Supérieur de Statistique par Quetelet (démographe) en Belgique...
(CS) Babbage invente la machine à calculer programmable (carte
Comment est apparu le DM, où en sommes-nous et où allons-nous ? perforée) et (Ada) Lovelace écrit un programme pour calculer les
nombres de Bernouilli.

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 5 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 6 / 94

Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?

Une rétrospective historique (Statistiques) Une rétrospective historique (Ordinateurs, IA, CS, BD)

Avènement des ordinateurs, leurs impacts sur les statistiques et le


début des disciplines sous-jacentes au DM :
Statistiques “modernes” et intelligence artificielle :
I Années 1940 :
I Fin du 19ème siècle et début du 20ème siècle :
(CS) Avènement de l’informatique et des ordinateurs à la suite des
(ST) Définitions de concepts importants 2 en statistiques fréquentistes,
travaux de Babbage, Turing, Von Neumann... avec l’impulsion
tels que les plans d’expériences, la vraisemblance, les tests
industrielle d’IBM.
d’hypothèses, les intervalles de confiance par Fisher, Pearson,
(ST) Mise en oeuvre de méthodes statistiques avec des ordinateurs sur
Neyman... sur des petits jeux de données.
des petits jeux de données (30 individus et 10 variables).
(ST) Fisher introduit l’analyse discriminante linéaire en 1936.
I Années 1950 :
(CS) En 1936 également, Turing propose sa “machine” qui est un
modèle abstrait du fonctionnement des appareils mécaniques de (IA) Turing publie en 1950 son article intitulé “Computing Machinery
calcul (concept formel de calculabilité/décidabilité -toute forme de and Intelligence”, prémices de l’intelligence artificielle (IA)
calcul peut être représentée numériquement-). cybernétique et de l’apprentissage machine (machine
learning).
(IA) McCullogh et Pitts présentent les premiers travaux sur les réseaux
de neuronnes et Rosenblatt présente le modèle de perceptron.
2. Développement également de la théorie moderne des probabilités -théorie de la (ST) Cox introduit la régression logistique binomiale en 1958.
mesure- avec Borel.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 7 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 8 / 94
Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?

Une rétrospective historique (Ordinateurs, IA, CS, BD) Une rétrospective historique (Ordinateurs, IA, CS, BD)
I Années 1960 : I Années 1970 (Ko) :
(ST) Critiques du point de vue fréquentiste en statistique et renouveau (IA) Premier hiver de l’IA : bcp de désilusions, promesses non tenues,
des statistiques bayésiennes en incorporant aux modèles des arrêt des financements.
informations subjectives (a priori) sous l’impulsion de Savage. (IA) Développement par Werbos de l’algorithme de
(ST) Benzécri et Escoffier introduisent l’AFC en 1962 et initient ainsi rétro-propagation pour l’apprentissage de réseaux de neuronnes
l’école française d’analyse des données. multicouches et solution apportée aux cas non-linéairement
(IA) Critique des réseaux de neuronnes (non-solvabilité des cas séparables.
non-linéairement séparables comme XOR) et développement de (ST) Du point de vue statistique/informatique : traitement d’un plus
l’IA symbolique (science cognitive, logique, bases de grand nombre de données et notamment de variables,
connaissance...) sous l’impulsion de Minsky et McCarthy développement des statistiques multidimensionnelles et de
(inventeur de LISP) du MIT. l’analyse de données.
(IA) Age d’or de l’IA symbolique : des ordinateurs résolvent des (ST) Nelder et Wedderburn formalisent le modèle linéaire généralisé
problèmes algébriques de mots, demontrent des théorèmes dans leur livre ”Generalized Linear Models” en 1972.
géométriques, apprennnent à parler l’anglais... Beaucoup (BD) Début des bases de données relationnelles (BDR) et
d’engouement et d’investissement aux USA notamment. ordinateurs de bureau : développement par Codd (IBM) des
(BD) Avènement des disques de données (par opposition aux cartes) et BDR décrivant une approche pour stocker et requêter des données
du concept de base de données. à partir d’une base. Le langage SQL apparaı̂t fin des années 70.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 9 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 10 / 94

Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?

Une rétrospective historique (Ordinateurs, IA, CS, BD) Une rétrospective historique (Data Mining)
I Années 1980 (Mo) : Avènement du Data Mining (DM) :
(IA) Succès commercial des systèmes experts qui donnent un I Années 1990 (Go) :
renouveau à l’IA symbolique (bases de connaissance) sous (DM) Le terme Data Mining apparaı̂t au sein de la communauté BD
l’impulsion des travaux de Feigenbaum. Exemple : Mycin permet pour caractériser les besoins en aide à la décision à partir de
de diagnostiquer les maladies infectieuses du sang. données. Le domaine est stimulé par des problémes opérationnels
(IA) Quinlan introduit les arbres de décision en 1986. au sein d’entreprises. Début du marketing quantitatif et de la
(IA) Renouveau également de l’IA cybernétique suite aux travaux de gestion de la relation client (CRM).
Werbos, Rumelhart (rétro-propagation) et Hopfield (reseaux de (DM) Agrawal and Srikant introduisent l’algorithme apriori pour la
neuronnes récurrent). recherche de règles d’association dans des BD en 1994.
(CS) Ce nouvel élan est lié à l’algorithme de rétro-propagation mais (IA) Deuxième hiver de l’IA : le développement et la puissance des
également aux débuts du calcul parallèle et distribué. ordinateurs de bureau (Apple et IBM) surpasse celle des
(ST) Du côté statistique, se développent les méthodes ordinateurs programmés en LISP qui deviennent chers à
non-paramétriques (on tente de s’affranchir du biais inductif). maintenir. Nouveau gel des financements de l’industrie IA.
(BD) Les données sont stockées sur plusieurs ordinateurs de bureau. Les (www) Le web prend naissance et se développe rapidement : on passe de
besoins en analyses persistent. Les entrepôt de données 26 sites web en 1992 à prés de 10 millions de sites en 1999.
introduits par Inmon émergent à la fin des années 80. (ST) Approches innovantes en statistiques : SVM de Vapnik et Cortes,
(DM) Au même moment, le terme “Knowledge Discovery in Boosting de Freund et Schapire, Bagging et Arcing de Breiman,
Databases” est utilisé pour la 1ère fois par Piatetsky-Shapiro. LASSO de Tibshirani, GAM de Hastie, Tibshirani. . .
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 11 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 12 / 94
Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?

Une rétrospective historique (Data science et Big data) Une rétrospective historique (Data science et Big data)
(ST) Avènement du Data Science en 2001 par Cleveland dans un
Data science et big data, suites logiques des statistiques et du DM : article intitulé “Data Science : An Action Plan for Expanding the
Technical Areas of the Field of Statistics” montrant la nécessité
I Années 2000 (To) :
d’intégrer les outils de calcul scientifique dans le champs
(www) Développement du web social et des smartphones : capacités
d’expertises des statistiques. Le data science peut être vu comme
accrues de stockage et d’échange de fichiers multimédia,
les statistiques avec des outils modernes de calcul scientifique.
expansion des activités économiques du e-commerce
(BD) Introduction des bases de données NoSQL comme Bigtable de
(recommandation, analyse de traces...). Tout ceci provoque un
Google en 2004, pour le stockage distribué des données
changement de paradigme : les données sont non-structurées,
volumineuses et non-structuées.
complexes et peuvent être de très grande dimension (texte,
(CS) Débuts du calcul distribué comme MapReduce de Google pour
image. . . ), les outils informatiques et les modèles d’analyse
effectuer des requêtes et calculs sur des données non-structurées
(statistiques, IA) doivent s’adapter à ces caractéristiques.
et distribués.
(ST) Développement de la branche apprentissage statistique. I Années 2010 (Po) :
Importance des concepts biais et variance : ce qui importe c’est
(DM) Avènement du Big Data (depuis la fin des années 2000) pour le
la qualité des connaissances découvertes et/ou des prédictions
stockage, le requêtage et l’analyse de données massives mais en
obtenues et non pas l’ajustement d’un modèle à des données.
mettant l’accent sur les 4V : Volume, Variété, Vélocité et
(ST) Le livre de référence “The Elements of Statistical Learning”
Véracité. Le big data peut être vu comme du DM avec des
d’Hastie, Tibshirani et Friedman sort en 2001.
technologies modernes de stockage et de calculs distribués.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 13 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 14 / 94

Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Les différentes étapes en DM

Une rétrospective historique (Data science et Big data) Schéma


Validation,
PROCESSUS DE Visualisation,
Interprétations...
DECOUVERTE DE
(BD)(CS) Développement à partir de 2011, de l’écosystème libre Hadoop et CONNAISSANCES Segmentation, Connaisances
du calcul distribué MapReduce pour répondre aux besoins Régression,
Classement...
croissants de l’analyse de données massives.
(BD)(CS) Développement à partir de 2014 de l’outil libre Spark, qui va plus Exploration, Résultats
Transformation, d’analyse
loin que le MapReduce classique en permettant des calculs Ajout/Réduction
distribués et itératifs nécessaires aux algorithmes de DM. de dimension...
Données
(IA) Retour en grâce des réseaux de neuronnes : la puissance des transformées
Inventaire,
serveurs de calcul permettent de mettre en oeuvre ces méthodes Sélection,
sur des données très massives. Le deep learning est la méthode Intégration...

de DM la plus en vogue de ces dernières années : très performant Données


cibles
pour de nombreux problèmes en image, texte, son. . .
(IA) L’algorithme AlphaGO de Google basé sur du deep learning bat
Bases de
un champion humain du jeu de Go en 2015 et en 2016. données

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 15 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 16 / 94
Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM

Inventaire, Sélection et Intégration des données Exploration, Transformation des données


En amont, il faut clairement définir et/ou identifier :
Il faut faire “connaissance” avec les données pour commencer à
Ile phénomène : “qu’est-ce que j’étudie ?”
I la tâche : “qu’est ce que je veux faire (découvrir ? prédire ?) ?” appréhender le phénomène à l’étude !
I la population : “quelles observations 3 je vais utiliser ?” Pour cela, les outils statistiques pertinents sont :
B Cela demande une bonne connaissance “métier” càd le contexte et les I Les statistiques descriptives univariées (tendance centrale, de
données sur lesquels porte l’étude. dispersion. . . ) pour :
Ensuite, il faut rassembler des informations sur le phénomène : F appréhender les caractéristiques simples des variables,
I Faire l’inventaire des variables 4 existantes. I Les graphiques (histogrammes, diagrammes en bâtons, camenberts,
I Sélectionner les variables en relation avec ma tâche. boı̂tes à moustache) pour :
I Intégrer ces variables pouvant provenir de plusieurs sources/BD au sein
F visualiser les caractéritiques simples, la distribution, des variables ;
d’un même jeu de données 5 .
Cette partie utilise des compétences en BD/DW/ETL mais nous
I Les statistiques descriptives bivariées (mesures de corrélation,
d’association. . . ) pour,
n’aborderons pas ces aspects.
F identifier les variables qui sont corrélées ;
Nous supposons que le jeu de données à été construit et nous nous
I Les statistiques exploratoires multidimensionnelles (ACP, AFC,
consacrerons en particulier à l’analyse.
ACM. . . ) pour :
3. ou individus, ou objets, ou entités.
F visualiser de façon synthétique les grandes tendances.
4. ou descripteurs ou attributs ou features.
5. Voire d’un entrepôt de données si besoin
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 17 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 18 / 94

Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM

Exploration, Transformation des données (suite) Exploration, Transformation des données (suite)
Transformer une variable quanti. en une variable quanti. :
Identifier, gérer les données manquantes : I Lorsque les variables son exprimées dans différentes échelles, celles-ci
peuvent créer un biais dans les méthodes utilisées. Il est important dans
I Si le jeu de données et suffisamment grand, on pourra :
ce cas de normaliser les variables en centrant et réduisant par exemple.
F enlever toute obs. comportant des données manquantes.
I Lorsque les variables ne satisfont pas aux hypothèses d’un modèle
I Si le jeu de données n’est pas suffisamment grand, on pourra : utilisé. Dans ce cas, transformer la variable par une fonction permet de
F remplacer une donnée manquante par une moyenne, la ramener dans les hypothèses requises. Ex : dans le modèle linéaire
F utiliser une méthode d’imputation plus élaborée. gaussien, il est requis que les variables suivent des lois normales.
Identifier et traiter les observations aberrantes : Transformer une variable quanti. en une variable quali. :
I L’étude d’une boı̂te à moustache permet d’identifier les obs. ayant des I Il est utilie de transformer une variable quanti. en quali., lorsque cela
valeurs extrêmes. facilite l’interprétation ou lorsque cela est requis par la méthode utilisée.
I Il faut étudier ces obs. et les enlever si elles peuvent causer un biais On parle de discrétisation. Elle peut être manuelle ou automatique.
dans l’estimation des méthodes utilisées : Transformer une variable quali. en une variable quali. :
F cas d’une obs. hors-norme, I Lorsque l’on a besoin de recoder les modalités (exprimées par du texte
F cas d’une obs. avec des erreurs de mesures. par exemple) d’une variable quali. en un autre format (code
numérique).
I Lorsque l’on souhaite regrouper plusieurs modalités en une seule.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 19 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 20 / 94
Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM

Exploration, Transformation des données (suite) Segmentation, Régression, Classement


Cette étape représente la partie analyse de la procédure de DM où
l’objectif est l’extraction des connaissances.
On peut faire la distinction entre deux types d’analyse :
Transformer une variable quali. en une variable quanti. : I L’analyse descriptive ou apprentissage non-supervisé. Le but est de
I Cela est souvent pratiqué par l’école anglo-saxonne où l’on ramène une mettre en évidence des régularités, tendances, corrélations. . . au sein
(ou plusieurs) variable quali. à un score numérique. Dans ce cas, les des données afin d’obtenir des connaissances “cachées” sur le
techniques factorielles telles que l’ACM peuvent être utilisées. phénoméne à l’étude.
On distingue (au moins) deux types de tâche :
F La classification automatique qui vise à partitionner la
Le problème plus général des données mixtes :
population en plusieurs classes. Chaque classe est un groupe
I De nombreuses méthodes ne permettent pas de traiter simultanément
homogène d’obs. qui sont plus similaires entre elles qu’elles ne le
des variables quanti. et quali. Dans ce cas, il est nécessaire de
sont avec les obs. des autres groupes. Le but est aussi de savoir
transformer les quanti. en quali. ou les quali. en quanti.
quelles sont les variables discriminantes de chaque classe.
F La recherche de règles d’association qui tente de déterminer

quelles valeurs de quelles variables vont très souvent ensembles


avec quelles valeurs de quelles autres variables. Les résultats
obtenus sont des règles de type “si conditions alors résultats”.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 21 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 22 / 94

Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM

Segmentation, Régression, Classement (suite) Validation, Visualisation et Interprétation des résultats


L’étape de validation est importante à plusieurs égards :
I L’analyse prédictive ou apprentissage supervisé. Dans ce cas et
I Il existe plusieurs méthodes pour les différentes tâches citées
contrairement à l’approche descriptive, il existe une variable cible (d’où précédemment. Cette étape sert alors à déterminer laquelle des
le terme supervisé) et l’objectif est d’estimer une fonction permettant méthodes testées donne les meilleures performances. Il existe des
de prédire pour une observation donnée la bonne valeur de la variable protocoles et critères pour comparer les méthodes entre elles (cf
cible. ci-dessous).
Il existe deux types de problèmes :
I Cette étape permet aussi d’avoir un retour expert sur la méthode
F Les problèmes de régression : la variable cible est alors
retenue. Est-ce que les résultats permettent véritablement d’extraire
des connaissances nouvelles ? C’est la dimension “humaine” de la
quantitative. Ex : prédiction des recettes d’un film étant donné les
validation qui est tout aussi primordiale.
acteurs, les producteurs, le budget. . .
F Les problèmes de classement 6 : la variable cible est dans ce cas
Pour la classification automatique on distingue :
discrète. Ex : prédiction de l’avis général sur un film entre “nul,
I Validation externe : on dispose d’une partition de référence et on
pas terrible, moyen, bon, super” étant donné les acteurs, les compare le résultat de la méthode avec cette partition selon plusieurs
producteurs, le budget. . . critères (indice de Rand corrigé par ex.).
I Validation interne : on mesure l’homogénéité des classes et de la
partition obtenue à partir de plusieurs critères (intertie intra-classe,
inter-classe par ex.).
6. ou catégorisation ou classification supervisé.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 23 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 24 / 94
Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM

Validation, Visualisation et Interprétation des résultats Validation, Visualisation et Interprétation des résultats
(suite) (suite)

Pour les règles d’association, il existe plusieurs critères pour mesurer


la pertinence d’une règle extraite (support, confiance, lift par ex.)
Pour chaque tâche, chaque type de critère d’évalutaion, il peut exister
En apprentissage supervisé (régression et classement), ce qui est
plusieurs types de graphique permettant de visualiser les
important c’est de pouvoir prédire correctement sur des données non
performances des méthodes et de les comparer entre elles.
encore observées. Pour cela, on a recours classiquement à de la
validation croisée afin d’avoir une estimation de l’erreur en
généralisation. Il est important de comprendre les protocoles expérimentaux et les
Il existe plusieurs mesures d’erreurs selon le problème considéré : critères d’évaluation, afin d’avoir une bonne interprétation des
I Pour un problème de régression : erreur quadratique moyenne (MSE) résultats d’expériences dans le but de choisir la bonne méthode.
ou erreur moyenne en valeur absolue (MAE). . .
I Pour un problème de classement : taux d’erreur, précision, rappel,
courbe ROC. . .

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 25 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 26 / 94

Introduction et définitions Exemples d’applications réelles Introduction et définitions Exemples d’applications réelles

Quelques applications Industries qui utilisent le DM


Vente, marketing :
Source : kdnuggets.com 7 (site de G. Piatetsky-Shapiro)
I Gestion de la relation client (ex : score d’appétence -achat-)
I Segmentation de la clientèle. . .
Banque, finance, assurance : Industries - Fields where you applied Analytics, Data Mining, Data
I Détection de fraudes (ex : comportements atypiques), Science in 2016 ?
I Score de risque (ex : attribution ou pas de crédit). . . The most popular areas were
Médecine, industrie pharmaceutique : I CRM/Consumer analytics, still n. 1 at 16.3% but down from 18.6%
I Réponse d’un patient vis à vis d’un traitement, share in 2015.
I Identification de facteurs de risques. . . I Finance, 15.0% (almost the same as in 2015)
Génome humain, bio-informatique : I Banking, 13.4% (slightly down)
I Advertising, 12.0% (up 35% from 2015)
I Relations entre l’ADN et des maladies,
I Science, 12.0% (almost the same)
I Détection de rôles joués par des gènes. . .
I Health care, 12.0% (11% down)
B Le DM peut s’appliquer à tout phénomène dont on peut mesurer des I ...
observations (stockables dans une BD) et qu’on souhaite appréhender
les caractéristiques et/ou qu’on souhaite prévoir le comportement. 7. http://www.kdnuggets.com/2016/12/poll-analytics-data-mining-data-science-applied-2016.
html
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 27 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 28 / 94
Introduction et définitions Exemples d’applications réelles Introduction et définitions Exemples d’applications réelles

CRISP-DM Remarques supplémentaires sur le déploiement


Cross Industry Standard Process for Data Mining 8 : procédure Dans un cadre opérationnel, le déploiement fait suite à la validation
communément utilisée par les data miner (DM) en entreprise. et à cette étape le DM prend concrètement une dimension business.
Prenons l’exemple d’une banque. L’équipe DM a mis en place une
méthode de scoring pour une nouvelle offre de crédit. Le déploiement
Compréhension
Compréhension
métier
métier
Compréhension
Compréhension
des
desdonnées
données
va consister à diffuser auprès des opérationels (les banquiers) soit
la méthode (via un logiciel), soit les résultats de la méthode (via un
rapport, une feuile de tabeur, une table dans une base de données. . . ).
Préparation
Préparation
des
desdonnées
données L’équipe DM doit présenter la méthode aux opérationels de
Déploiement
Déploiement DONNEES façon accessible, en évitant les détails techniques et en exposant : le
but recherché, le principe de l’outil, son fonctionnement mais aussi
Modélisation
Modélisation ses limites. C’est la dimension aide à la décision du DM.
Il est ensuite important de suivre l’utilisation et les performances
de la méthode. Est-ce que la méthode de scoring est performante ?
Evaluation
Evaluation Est-ce que les clients à qui on a octroyé un crédit le remboursent
véritablement ? Il s’agit ici de reporting qui permet d’enrichir la
8. Fondé en 1996 par les entreprises NCR, SPSS, Daimer-Benz. compréhension métier et on obtient ainsi un cercle vertueux.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 29 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 30 / 94

Introduction et définitions Langage et librairies R pour le DM Introduction et définitions Langage et librairies R pour le DM

Quelques outils pour le DM Pourquoi le langage R ?


Le langage R 9 est, avec Python, l’un des deux principaux langages
pour le DM/Data Science.
Ceux qui sont propriétaires et payants : Communauté active avec une conférence annuelle : useR !
I SAS
Beaucoup de librairies : Comprehensive R Archive Network 10 .
I SPSS
I SPAD Une revue scientifique : The R Journal 11 .
I Knime Un IDE de référence qui est libre également : Rstudio 12 .
I ... Plusieurs ressources “cheatsheets” disponibles 13 .
Ceux qui sont open source et/ou gratuits :
B R
I Python

I Weka
I Daiku 9. https://www.r-project.org/
I ... 10. https://cran.r-project.org/
11. https://journal.r-project.org/
12. https://www.rstudio.com/
13. https://www.rstudio.com/resources/cheatsheets/, http://www.rdatamining.com/docs/
RDataMining-reference-card.pdf?attredirects=0&d=1, http://www.thinkr.fr/le-blog/
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 31 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 32 / 94
Introduction et définitions Langage et librairies R pour le DM Introduction et définitions Objectifs du cours

R est en vogue ! Objectifs


Source kdnuggets.com 14 .

Aborder chaque étape du DM à partir d’exemples réels.


Rappeler/introduire des méthodes classiques de façon concise.
Savoir mettre en oeuvre ces méthodes avec le langage R.
Savoir mettre en place le protocole expérimental adéquat.
Savoir interpréter les résultats.
B Etre opérationnel !

14. http://www.kdnuggets.com/2016/06/r-python-top-analytics-data-mining-data-science-software.
html
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 33 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 34 / 94

Introduction et définitions Objectifs du cours Exploration des données

Organisation des séances Rappel du Sommaire

Introduction brève des méthodes ∼30 minutes.


Déroulement des TP ∼60-70 minutes. 2 Exploration des données
Correction et interprétation des résultats ∼15 minutes. Commandes utiles et imports de données
Statistiques descriptives univariées et bivariées
La dernière séance programmée sera l’examen : Quelques tests statistiques
I Cas à analyser. Manipulation et transformation de données
I Code R et interprétations à restituer.

Les supports de cours et sujets de TP sont disponibles au fil de l’eau


sur mon site eric.univ-lyon2.fr/∼jahpine/.

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 35 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 36 / 94
Exploration des données Commandes utiles et imports de données Exploration des données Commandes utiles et imports de données

Commandes utiles Import de données


Gestion des librairies :
I Liste des librairies chargées : search Format natif de R (.Rdata) :
I Installation : install.packages I load
I Chargement : library Format texte CSV (.csv) :
I L’utilisation de l’onglet Packages de Rstudio est très pratique ! I read.table
Gestion des variables : I read.csv
I Sauvegarde de variables : save (fichier Rdata)
Format Excel (.xlsx) :
I Chargement d’un ensemble de variables : load
I Supprimer une variable de l’envir. de travail : rm
I read.xlsx [xlsx]
Export des données : Format SAS (.xpt), SPSS (.sav) :
I Format texte CSV : write.csv I sasxport.get [Hmisc]
I Format Excel : write.xlsx [xlsx] I spss.get [Hmisc]
Commentaires : # Ressources en-ligne :
Remarque sur la notation : commande [librairie] (le cas échéant) I http://www.statmethods.net/input/importingdata.html
Ressources en-ligne : I http://www.rdatamining.com/docs/
I http://www.rdatamining.com/docs/ introduction-to-data-mining-with-r-and-data-import-export-in-r
introduction-to-data-mining-with-r-and-data-import-export-in-r
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 37 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 38 / 94

Exploration des données Statistiques descriptives univariées et bivariées Exploration des données Statistiques descriptives univariées et bivariées

Tendances centrales Indicateurs de dispersion/répartition

Principe : résumer la distribution d’une variable en un nombre.


Variable quantitative : Principe : mesurer la dispersion/concentration d’une variable.
I Moyenne (mean) Variable quantitative :
I Médiane (median) I Variance (var)
Variable qualitative : I Ecart-type (sd)
I Etendue (range)
I Mode (summary)
I Quartiles (quantile)
Commandes donnant plusieurs indicateurs :
Variable quanlitative :
I summary
I Fréquences (table)
I describe [Hmisc]
I describe [psych] Ressources en-ligne :
I http://www.statmethods.net/stats/descriptives.html
Ressources en-ligne :
I http://www.rdatamining.com/docs/data-exploration-and-visualization-with-r
I http://www.statmethods.net/stats/descriptives.html
I http://www.rdatamining.com/docs/data-exploration-and-visualization-with-r

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 39 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 40 / 94
Exploration des données Statistiques descriptives univariées et bivariées Exploration des données Statistiques descriptives univariées et bivariées

Corrélations et associations Graphiques de statistiques univariées

Principe : mesurer une relation de dépendance entre deux variables.


Variables quanti./quanti. :
I Covariance (cov) Variable quantitative :
I Corrélation de Bravais-Pearson (cor) I Boı̂te à moustache (boxplot)
Variables quali./quali. : I Histogramme (hist)
I Table de contingence (table) I Estimation à noyau de la densité (plot(density))
I Coefficient Chi2 (chiqs.test(table)) Variable qualitative :
I Coefficient Phi 15 (Phi [DescTools]) I Camembert (pie)
I Coefficient de Tchuprow 16 (TschuprowT [DescTools]) I Diagramme à bâtons (barplot(table))
Variables quanti./quali. : Variables quanti./quali. :
I Statistiques univariées d’une variable quanti. par groupe de modalités I Boı̂te à moustache par modalité (boxplot(quanti~quali))
d’une variable quali. (aggregate(quanti~quali,summary))
I Rapport de corrélation 17 (eta2 [BioStatR])
15. https://en.wikipedia.org/wiki/Phi coefficient
16. https://en.wikipedia.org/wiki/Tschuprow’s T
17. https://en.wikipedia.org/wiki/Correlation ratio
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 41 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 42 / 94

Exploration des données Statistiques descriptives univariées et bivariées Exploration des données Quelques tests statistiques

Graphiques de statistiques bivariées Tests statistiques

Variables quanti./quanti. :
Tests d’adéquation à une loi donnée pour variable quantitative :
I Nuage de points 18 entre deux variables (plot) I Loi normale : test de Shapiro-Wilk 19 (shapiro.test)
I Nuage de points entre plusieurs couples de variables (pairs) I Loi quelconque : test de Kolmogorov-Smirnov 20 (ks.test)
Variables quali./quali. :
Tests de corrélation entre deux variables quantitatives :
I Table de contingence “graphique” (balloonplot(table) [gplots]) I Tests de Pearson ou Kendall ou Spearman (cor.test)
I Table de contingence des résidus du test de Chi2 “graphique”
(assoc(table) [vcd]) Test d’indépendance entre entre deux variables qualitatives :
Variables quantis./quali. :
I Tests du Chi2 (chisq.test)
I Coordonnées parallèles de plusieurs variables quanti. par modalité d’une Test de comparaison de populations :
variable quali. (parcoord [MASS]) I ANOVA à 1 facteur 21 (aov)
Références en-ligne :
I Test de Kruskal-Wallis 22 (kruskal.test)
I http://www.statmethods.net/graphs/scatterplot.html
I http://www.statmethods.net/advgraphs/mosaic.html 19. https://en.wikipedia.org/wiki/Shapiro%E2%80%93Wilk test
I http://www.rdatamining.com/docs/data-exploration-and-visualization-with-r 20. https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov test
21. https://en.wikipedia.org/wiki/One-way analysis of variance
18. https://en.wikipedia.org/wiki/Scatter plot 22. https://en.wikipedia.org/wiki/Kruskal%E2%80%93Wallis one-way analysis of variance
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 43 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 44 / 94
Exploration des données Quelques tests statistiques Exploration des données Manipulation et transformation de données

Détection des points aberrants Manipulation de données avec dplyr

Introduction à la librairie [dpylr].


Par analyse graphique :
Principe : Sélectionner, croiser des variables et automatiser certains
I Un point extrême d’une boı̂te à moustache peut être considéré comme
calculs/prétraitements dans une grammaire lisible.
aberrant si :
F si sa valeur absole dépasse la moyenne + 3 fois l’écart type,
Sélection de variables (colonnes d’un data.frame) :
F si sa valeur est au-dessus de Q3+1.5(Q3-Q1) ou au-dessous de
I Extraction de variables (select).
Q1-1.5(Q3-Q1) où Q1 et Q3 sont les 1er et 3ème quartiles (règle I Matching sur nom des variabes (starts with, contains, ends with,
de Tukey). ...)
Par test statistique : Sélection d’individus (lignes d’un data.frame) :
I Test de Dixon 23 (dixon.test [outliers]) I Extraction d’individus (filter + conditions logiques)
I Test de Grubbs 24 (grubbs.test [outliers]) I Détection des doublons (distinct)
I Echantillonage (sample frac,sample n)
Ressources en ligne :
I https://www.rstudio.com/wp-content/uploads/2016/01/data-wrangling-french.pdf
23. https://en.wikipedia.org/wiki/Dixon%27s Q test
24. https://en.wikipedia.org/wiki/Grubbs%27 test for outliers
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 45 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 46 / 94

Exploration des données Manipulation et transformation de données Exploration des données Manipulation et transformation de données

Résumés de données (calculs d’indicateurs) avec dplyr Construction de nouvelles variables avec dplyr

Principe : transformer une ou plusieurs variables afin d’obtenir une


nouvelle variable.
Principe : à partir d’un sous-ensemble de lignes, calculer un indicateur.
Quelques actions possibles (liste non exhaustive) :
Quelques actions possibles (liste non exhaustive) : I Action sur une variable (mutate)
I Action sur une variable (summarize). I Action sur toutes les variables (mutate all)
I Action sur toutes les variables (summarize all)
I Action de dénombrement sur une variable (qualitative) (count) Quelques transformations classiques : pmin, pmax . . .
Quelques indicateurs classiques : min, max, mean, sd . . . On peut définir sa propre transformation par une fonction !
On peut définir son propre indicateur par une fonction ! Utilisation pour le recodage des variables :
I Variable Quali. → Quali. (recode factor)
I Variables Quanti.+Quali. → Quali. (mutate + case when +
conditions logiques . . . )

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 47 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 48 / 94
Exploration des données Manipulation et transformation de données Exploration des données Manipulation et transformation de données

Regroupement de données et %>% avec dplyr Discrétisation de variables quantitatives

Principe du regroupement de données :


analyser une variables qualitative ou le croisement de plusieurs
variables qualitatives. Principe : transformer une variable quantitive en une variable
I Regroupement des lignes selon les modalités de variable(s) qualitative en définissant manuellement ou automatiquement des
qualitative(s) (group by) intervalles.
Principe du “pipe” %>% : Nous appliquerons la discrétisation manuelle :
enchaı̂ner plusieurs opérations, l’input d’une opération étant l’output I Découpage selon des points définissant des intervalles (cut)
de l’opération précédente. Il existe des méthodes plus avancées. Vous pouvez utiliser par
Exemple : exemple la librairie [smbinning] avec la ressource en-ligne suivante
iris %>% group by(Species) %>% http://blog.revolutionanalytics.com/2015/03/
summarize(m=mean(Sepal.Length)) r-package-smbinning-optimal-binning-for-scoring-modeling.html.

Le %>% permet d’avoir une lecture simple du “workflow”.


Il existe d’autres opérateurs de ce type ([magritt]).

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 49 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 50 / 94

Exploration des données Manipulation et transformation de données Data Mining descriptif

Gestion des données manquantes Rappel du Sommaire

Les données manquantes en R sont symboliquement marquées par NA


(“Non Attributed”).
Quelques commandes de base pour gérer les données manquantes :
3 Data Mining descriptif
I Test si présence d’une donnée manquante (is.na).
Analyse de données
I Test de lignes complètes (complete.cases).
Classification automatique
Il existe plusieurs méthodes d’imputation mais nous utiliserons des Règles d’associations
approches classiques.
En particulier, nous mettons en oeuvre les outils proposés par
[dplyr] cités précédemment.
Pour aller plus loin, il existe la librairie [mince] et la ressource en
ligne suivante par exemple
https://datascienceplus.com/imputing-missing-data-with-r-mice-package/.

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 51 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 52 / 94
Data Mining descriptif Data Mining descriptif Analyse de données

Analyse descriptive Méthodes de réduction de dimension


Nous disposions d’une table de données avec n individus et p
variables que l’on notera x1 , . . . , xp . Principe : représenter de façon “efficace” et “intelligente”
L’objectif est d’explorer ces données par des méthodes statistiques l’information contenue dans une table au travers de graphiques
afin d’en extraire/découvrir des informations pertinentes. On parle présentant les données dans une espace géométrique de dimension
d’apprentissage non-supervisé car il ne s’agit pas de modéliser une faible.
variable en particulier. Concepts sous-jacents :
Les méthodes de réduction de dimension (ACP, AFC, ACM) en I Le terme information est ici de nature géométrique et repose
analyse de données permettent de représenter les données dans des pincipalement sur la notion de variance d’un nuage de points : de
espaces réduits et ce faisant, elles mettent en valeur les tendances combien en moyenne les points sont distants du barycentre.
principales en déterminant les associations/oppositions entre individus I Les notions de distances (métriques) sont donc fondamentales. On
et variables de façon simultanée. détermine un sous-espace vectoriel de faible dimension au sein duquel
le nuage projeté est le moins déformé possible.
Les méthodes de classification automatique agissent praticulièrement I On montre que déterminer ce sous-espace vectoriel revient à
au niveau des individus. Elles viennent souvent compléter les déterminer la décomposition spectrale (recherche de valeurs et vecteurs
méthodes de réduction de dimension en déterminant de façon claire propres) d’une matrice carrée symétrique définie positive.
les contours de groupes homogènes conduisant à une typologie de la
population.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 53 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 54 / 94
Dans le cas de données qualitatives, l’extraction de règles
d’association permet de déterminer
Data Mining descriptif
des groupes de modalités qui
Analyse de données Data Mining descriptif Analyse de données
cooccurrent fréquemment ensemble. Le résultat est présenté sous
Méthodes
forme dede base
règles (proposition logique) et celles-ci mettent alors en Outils en R et ressources en ligne
évidence des associations fortes entre plusieurs variables.

Les tables de données peuvent être de différentes natures et selon le Il existe plusieurs outils en R pour faire de l’ADD :
type de variables on a une méthode particulière. I Commandes de base (svd, eigen, prcomp, princomp)
I Plusieurs librairies ([MASS], [sca], . . . )
Si les variables sont quantitatives on parle d’Analyse en Composantes I Ressource en ligne : https://cran.r-project.org/web/views/Multivariate.html
Principales (ACP). (sections “Projection methods” ou “Correspondance analysis”)
Si on étudie le croisement de deux variables qualitatives on parle Nous utiliserons principalement la librairie (française) [FactoMineR].
d’Analyse Factorielle des Correspondances Simple (AFC).
Ressources en ligne :
Si les variables (plus de deux) sont qualitatives, on parle d’Analyse I Site de la librairie : http://factominer.free.fr/.
(Factorielle) des Correspondances Multiples (ACM). I Article : http://factominer.free.fr/docs/article FactoMineR.pdf .
Si les variables sont un mélange de quanti. et quali. on parle Livre associé : F. Husson, S. Lê, J. Pages, “Analyse de données avec
d’Analyse Factorielle de Données Mixtes (AFDM). R”, Presses Universitaires de Rennes.

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 55 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 56 / 94
Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique

L’algorithme des k-moyennes (k-means) L’algorithme des k-moyennes (k-means)


Principe : Affecter un individu à la classe dont le barycentre est le
plus proche. Mettre à jour l’affection de cet individu et le barycentre
de son ancienne et nouvelle classe. Itérer ces opérations pour tous les x1
individus et jusqu’à convergence.
Remarques importantes : x4
x3
I On raisonne dans un espace euclidien et les variables sont donc
continues.
I La mesure de proximité utilisée est la distance euclidienne (avec poids x2
uniforme sur les variables).
I Le barycentre est le vecteur moyen et par défaut les individus ont tous x5
un poids uniforme.
I D’un point de vue optimisation, la procédure diminue la variance x7
intra-classe et augmente la variance inter-classes à chaque itération.
I Complexité en O(n) (si p et k sont petits).
I Cet algorithme détecte des classes qui sont de forme sphérique dans x6
leur représenation géométrique.
Commande kmeans.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 57 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 58 / 94

Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique

La classification ascendante hiérarchique (CAH) La classification ascendante hiérarchique (CAH)


Principe : Regrouper itérativement les deux classes les plus proches
jusqu’à ce que tous les individus soient regroupés en une seule classe.
On obtient une succession de classes emboı̂tées.
Remarque importante :
x1
I L’input classique de cette procédure est une matrice de dissimilarités.
I On ne fixe pas a priori le nombre de classes et on peut couper a x4
posteriori l’arbre afin d’avoir une partition en k classes.
I Peut traiter tout type de données (quanti., quali., mixtes, x3
x2
relationnelles) à condition d’avoir une matrice de dissimilarités.
x5
I Plusieurs méthodes existent pour calculer la dissimilarité entre une
nouvelle classe et les autres classes mais la formule paramétrique de
Lance-Williams permet d’unifier sept techniques particulières.
I L’ensemble de ces techniques permet de tenir compte de nombreuses x6
x1 x2 x3 x4 x5 x6
situations. Contrairement aux k-means, on peut détecter des classes de
forme non sphérique (méthode single par exemple).
I Complexité en O(n3 ) (donc plus coûteux que les k-means).
Commandes hclust, cutree.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 59 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 60 / 94
Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique

L’algorithme des k-modes CAH de Ward et réduction de dimension


Principe : les méthodes de réduction de dimension permettent de
Principe : Extension de l’algorithme des k-moyennes aux données
mettre en lumière différents groupes d’individus sans pour autant en
qualitatives. La procédure est la même. C’est le concpet de barycentre
dessiner des contours exacts. On peut alors utiliser une méthode de
qui change : le vecteur représentant d’une classe est le vecteur dont
classification automatique pour détecter des classes.
chaque variable est donnée par le mode (modalité la plus fréquente)
Remarques importantes :
parmi les membres de la classe. I La représentation dans l’espace réduit est utilisée comme représentation
Remarques importantes : euclidienne des données. Dans le cas des données qualitatives, l’ACM
I La mesure de proximité par défaut est basée sur le “simple matching permet d’avoir une représetation continue des données.
distance” : pour deux individus, on compte le nombre de variables dont I Les méthodes factorielles reposent sur des critères intertiels. C’est aussi
les modalités ne sont pas les mêmes. le cas des k-moyennes ou de la CAH de Ward. Ces méthodes sont donc
I On montre que le “vecteur des modes” est celui qui minimise les particulièrement en adéquation avec la représentation factorielle.
distances de “simple matching” avec les individus de la classe (de la I Pour éviter de fixer k, c’est la CAH de Ward qui est associée
même façon que le barycentre est le vecteur qui mimise les distances classiquement aux méthodes de réduction de dimension. Mais, en
euclidiennes avec les individus de la classe). pratique, les k-moyennes sont aussi utilisés soit pour faire face au pb de
I Complexité en O(n) (si q (nombre total de modalités) et k sont petits). complexité de le CAH, soit pour améliorer la partition à k classes
obtenue en coupant l’arbre de la CAH.
Commande kmodes [klaR].
Commande HCPC [FactoMineR].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 61 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 62 / 94

Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique

Evaluation et comparaison de partitions Ressources en-ligne


Principe : évaluer la qualité du résulat d’une méthode de classification
automatique. On distingue la validation interne de la validation
externe. Dans ce dernier cas, on dispose de la vérité terrain.
La classification automatique est une sous-discipline majeure de la
Remarques importantes :
I La validation interne est basée sur des mesures caractérisant fouille de données.
l’homogénéité des classes obtenues, en analysant les distances entre les Concernant R, voici quelques pointeurs :
membres d’une même classe ou entre les membres de classes distinctes. I https://cran.r-project.org/web/views/Cluster.html
On utilisera typiquement la variance intra-classe et la variance I http://www.statmethods.net/advstats/cluster.html
inter-classe mais d’autres indices existent comme la valeur moyenne I http://www.rdatamining.com/docs/data-clustering-with-r
de la silhouette. I https://www.stat.berkeley.edu/∼s133/Cluster2a.html
I La validation externe confronte la vraie partition à celle obtenue par I https://rstudio-pubs-static.s3.amazonaws.com/
une méthode. Dans ce cas, les critères de validation sont des mesures 33876 1d7794d9a86647ca90c4f182df93f0e8.html
de similarité ou d’association entre deux partitions. L’indice corrigé de I https://www.r-bloggers.com/search/clustering/
Rand est un critère typique mais d’autres mesures existent.
I Les mesures de validation externe peuvent être aussi utilisées pour
comparer les partitions obtenues par deux méthodes différentes.
Commande cluster.stats [fpc].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 63 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 64 / 94
Data Mining descriptif Règles d’associations Data Mining descriptif Règles d’associations

Règles d’associations Quelques définitions


Principe : on cherche des règles du type si conditions alors résultats Une règle est de type conditions → résultats. On écrit également
qui soient vraies pour au moins Y% des cas et qui se rencontrent antécédent → conséquent.
globalement pour au moins X% des individus de la base. Y% est Exemple des tickets de caisse : Si “couche” ∧ “samedi” → “bière”.
appelé indice de confiance et X% indice de support. Les conditions sont une conjonction de type :
Remarques importantes :
conditions=(V 1 = a) ∧ (V 2 = b) ∧ (V 3 = c)
I L’indice de support est formellement :
Chaque élément est appelé item.
P(conditions ∧ résultats)
Le résultat est un unique item (et non pas une conjonction d’items)
I On cherche des associations entre l’observation d’une conjonction de qui ne fait pas partie des conditions.
modalités d’un ensemble de variables et l’observation d’une modalité Les indices de support et de confiance permettent de sélectionner des
d’une autre variable.
règles pouvant être intéressantes. En pratique, il faut compléter ces
I L’indice de confiance est formellement :
critères par des mesures dites d’intérêt. Une mesure classique est le
P(conditions ∧ résultats)
= P(résultats|conditions) lift défini formellement comme suit :
P(conditions)
P(conditions ∧ résultats)
I Cette tâche s’applique sur des données qualitatives. Il faut donc
discrétiser les variables quantitatives si l’on souhaite les utiliser.
P(conditions)P(résultats)
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 65 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 66 / 94

Data Mining descriptif Règles d’associations Data Mining prédictif

L’algorithme Apriori Rappel du Sommaire


Principe : algorithme basé sur le support et la confiance. Recherche
dans un premier temps de sous-ensembles d’items ayant un support
suppérieur à un seuil X. Puis, il décompose chacun des sous-ensemble
d’items en paires (conditions,Résultat) de sorte à ce que l’indice de
confiance soit supérieur à un seuil Y. 4 Data Mining prédictif
Remarques importantes : Régression
I Première étape : on exclut tous les sous-ensembles d’items peu Classement
fréquents. Si un sous-ensemble de taille p est fréquent alors un Arbres de decision et fôrets aléatoires
sous-ensemble de taille p − 1 de ce sous-ensemble est également
fréquent. On n’a besoin que d’une seule passe sur les individus.
I Deuxième étape : soit un sous-ensemble fréquent de taille p, il existe
2p−1 − 1 règles possibles conditions → Résultat. Apriori permet
d’identifier rapidement les règles dépassant un seuil de confiance.
I Malgré cela, il exite en pratique bcp de règles peu intéressantes et il
faut donc d’une part imposer un seuil de confiance très fort (>75%) et
plus fort que le seuil de support (règles rares) ; d’autre part continuer à
filtrer les règles par d’autres mesures d’intérêt.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 67 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 68 / 94
Data Mining prédictif Data Mining prédictif Régression

Analyse prédictive Régression - Nature des variables explicatives


Nous disposions d’une table de données avec n individus et p
variables que l’on notera x1 , . . . , xp . Nous disposons de plus d’une La variable à expliquer y est quantitative.
variable cible notée y. Les variables explicatives x1 , . . . , xp peuvent être de plusieurs natures
L’objectif est de modéliser y en fonction de x1 , . . . , xp dans le but également :
ultime de faire des prédictions. Contrairement à l’analyse descriptive I x1 , . . . , xp sont toutes quantitatives : régression linéaire multiple,
où il n’y a pas de variable d’intérêt, on parle ici d’apprentissage I x1 , . . . , xp sont toutes qualitatives : analyse de la variance (à plusieurs
supervisé car c’est la variable cible y qui nous intéresse en particulier. facteurs),
I x1 , . . . , xp forment un mélange de var. quanti. et quali. : analyse de la
La variable y peut être typiquement soit quantitative continue, soit covariance.
qualitative nominale (discrète). Dans le 1er cas, on a un problème de
On se restreint aux problèmes de régression linéaire multiple et on
régression tandis que le 2ème cas est un problème de classement.
(re)voit les moindres carrés ordinaires, la régression sur composantes
Pour la régression, le modèle linéaire est l’approche la plus fréquente :
principales et les moindres carrés partiels.
on suppose la relation y = a0 + a1 x1 + . . . + ap xp + . Il existe en
revanche plusieurs façons d’inférer les paramètres {a0 , a1 , . . . , ap }. D’autres techniques existent comme la régression pénalisée (ridge,
lasso, elasticnet), les machines à vecteurs supports (svm). . .
Pour le classement, il existe plusieurs modèles qui sont inspirés de la
statistique mais également de l’intelligence artificielle.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 69 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 70 / 94

Data Mining prédictif Régression Data Mining prédictif Régression

Régression par moindres carrés ordinaires MCO Régression sur composantes principales (PCR)
On se restreint au cas où x1 , . . . , xp sont toutes quantitatives. Principe : lorsque les variables x1 , . . . , xp ne sont pas linéairement
Principe : On suppose la relation linéaire suivante indépendantes alors la méthode des MCO n’est pas identifiable. Une
y = a0 + a1 x1 + . . . + p
Panp x 2+  et pour inférer les paramètres on approche consiste à réduire l’espace de description et d’appliquer les
cherche à minimiser i=1 i (somme des carrés des résidus). MCO dans cet espace. La méthode classique consiste à faire une ACP
Remarques importantes : et de faire la régression sur les premières composantes principales.
I Si on fait de plus l’hyopothèse que i sont i.i.d. selon N (0, σ 2 ) alors on Remarques importantes :
parle de modèle linéaire gaussien. Dans ce cas, l’estimateur du I En effet, on sait que les axes principaux sont mutuellement
maximum de vraisemblance (MV) est identique à l’estimateur des
orthogonaux et il n’y a donc plus de problèmes de colinéarité.
moindres carrés ordinaires. On peut alors compléter l’estimation I Comme en ACP, on n’utilise pas ici toutes les composantes principales.
ponctuelle par des intervalles de confiance et des tests de significativité
On profite donc ici du principe de sélection d’information propre aux
(tests de Student, Fisher, . . . ).
méthodes de réduction de dimension. En théorie, la régression PCR est
I Attention ! Pour que les méthodes de statistiques inférentielles soient
donc moins sensible aux données aberrantes.
valides, il faut vérifier que les hypothèses de gaussianité, I Même si on régresse sur des composantes principales sachant qu’elles
d’indépendance et d’homoscédasticité soient vérifiées.
sont des combinaisons linéaires des variables initiales, on peut toujours
I Le théorème de Gauss-Markov nous dit que l’estimateur du MV est
se ramener à une expression du modèle en fonction de ces dernières.
celui de variance minimale parmi les estimateurs linéaires sans biais.
Commande lm. Commande pcr [pls].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 71 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 72 / 94
Data Mining prédictif Régression Data Mining prédictif Régression

Régression par moindres carrés partiels (PLS) Sélection de modèles


Principe : la méthode PLS est aussi une régression sur des Il existe plusieurs méthodes/modèles pour résoudre une tâche de DM.
composantes (càd des variables synthétiques). Mais contrairement à Etant donné une étude de cas, comment choisir un modèle ?
la régression PCR, la méthode PLS détermine des composantes qui Approche “axiomatique” :
privilégient les variables explicatives fortement corrélées à la variable à I Chaque modèle repose sur des hypothèses.
expliquer. I Une bonne maı̂trise de ces hypothèses et des données permet de choisir
Remarques importantes : un sous-ensemble approprié de méthodes.
I Les composantes PLS sont déterminées itérativement. A chaque étape Approche empirique :
k, on cherche tk , la combinaison linéaire de la partie résiduelle des I On teste plusieurs méthodes (sans faire trop attention à leurs
variables explicatives la plus corrélée à yk , la partie résiduelle de la fondements) sur les données de l’étude.
variable à expliquer. I On choisit le modèle donnant les meilleurs résultats.
I On fait ensuite une régression linéaire simple par MCO de yk sur tk . On attend d’un modèle qu’il fasse de bonnes prédictions sur des
I La partie résiduelle est la part des données non encore expliquées. C’est données non observées !
la projection des variables sur l’espace engendré par les résidus k .
D’autres critères de sélection existent comme la possibilité
I On montre que les composantes PLS, t1 , . . . , tm sont des combinaisons
linéaires des variables initiales et qu’elles sont orthogonales entre elles d’interpréter un modèle par opposition aux méthodes “boı̂tes noires”.
(similairement à la méthode PCR). Dans ce cous, nous faisons de la pratique et utiliserons donc
Commande pls [pls]. l’approche empirique.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 73 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 74 / 94

Data Mining prédictif Régression Data Mining prédictif Régression

Protocol expérimental Arbitrage biais-variance


Sous-apprentissage : le modèle repose sur des hypothèses trop
restreintes (modèle trop simpliste) et on est sûr d’avoir une erreur
On dispose d’un jeu de données annotées O avec n individus. d’entraı̂nement et en généralisation forte.
On découpe O en deux sous-ensembles disjoints O = E ∪ T où : Sur-apprentissage : le modèle repose sur des hypothèses trop larges
I E : ensemble d’entraı̂nement ou d’apprentissage, (modèle trop complexe), on obtient une erreur d’entraı̂nement très
I T : ensemble de test. faible mais une erreur en généralisation très forte.
On infère les paramètres du modèle à partir des données E. Modèle trop simpliste : si les données d’entraı̂nement changent, les
On teste le modèle estimé sur les données non observées T. estimations du modèle changent peu (faible variance) mais l’erreur
On distingue deux types d’erreur : d’entraı̂nement est élevée (fort biais). L’erreur en généralisation est
I l’erreur du modèle estimé sur E est l’erreur d’entraı̂nement, forte malgré une faible variance en raison du fort biais.
I l’erreur du modèle estimé sur T est l’erreur en généralisation. Modèle trop complexe : si les données d’entraı̂nement changent, les
Attention ! En DM, c’est l’erreur en généralisation qu’il est important estimations du modèle changent beaucoup (forte variance) mais
de minimiser ! l’erreur d’entraı̂nement est très faible (faible biais). Cependant,
l’erreur en généralisation peut être forte en raison de la forte variance.
Le choix d’un bon modèle réside en un bon équilibre entre le biais et
la variance !
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 75 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 76 / 94
Data Mining prédictif Régression Data Mining prédictif Régression

Arbitrage biais-variance Procédure de validation croisée

Rappel : si on change les données d’entraı̂nement, on change les


Illustration de l’arbitrage biais-variance : estimations du modèle et donc les performances de celui-ci.
Principe : découper le jeu de données en k sous-ensembles de taille
identique. On apprend sur l’union de k − 1 sous-ensemble et on teste
Erreur de prédiction
sur le sous-ensemble restant. On procède ainsi k fois (l’ensemble de
test change à chaque itération). On obtient ainsi k estimations de la
Données de test performance du modèle. On moyenne pour avoir une estimation plus
ou de validation robuste de la performance.
Plus formellement :
I Une k validation croisée signifie que l’on a k paires (Ej , Tj )j=1,...,k .
Données d’entraı̂nement I Pour chaque j = 1, . . . , k, on apprend sur Ej et on teste sur Tj .
I Chaque paire j nous donne une estimation d’une mesure d’erreur ou de
performance. On aboutit donc à k estimations distinctes. La moyenne
Complexité du modèle est une estimation plus robuste que celle obtenue par chaque paire j.
I Si k = n on parle de “leave one out cross validation” (LOOCV).

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 77 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 78 / 94

Data Mining prédictif Régression Data Mining prédictif Régression

Procédure de validation croisée (suite) Mesures de performances


Dans le cas de la régression, on utilise classiquement les mesures
Illustration d’une validation croisée à 4 échantillons. d’erreur suivantes pour évaluer un modèle de prédiction f :
Ensemble des données annotées I La Moyenne des carrés des résidus (“Mean Squared Error”) :
n
1X
Découpage aléatoire en 4 sous-ensembles mse(f ) = (yi − f (xi ))2
n
i=1

1ère paire (en rouge T, le reste E)


I La racine carrée de la moyenne des carrés des résidus (“Root Mean
Squared Error”) :
v
2ème paire u n
u1 X
rmse(f ) = t (yi − f (xi ))2
n
i=1
3ème paire
I La moyenne des résidus en valeurs absolues (“Mean Absolute Error”) :
4ème paire 1X
n
mae(f ) = |yi − f (xi )|
n
i=1

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 79 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 80 / 94
Data Mining prédictif Classement Data Mining prédictif Classement

Classement - Nature des variables explicatives Analyse linéaire discriminante (LDA)


Principe : les données sont issues d’un mélange de lois normales et
La variable à expliquer y est cette fois-ci qualitative. On supposera chaque classe possède un vecteur moyen distinct. Formellement, étant
dans la suite que les mesures dans y peuvent prendre q différentes donné une classe Ck on suppose que x|Ck ∼ N (µk , Σ) où µ est le
valeurs : {C1 , . . . , Ck , . . . , Cq }. vecteur moyen et Σ la matrice de variance-covariance. On cherche
Les variables explicatives x1 , . . . , xp peuvent être de plusieurs natures alors à estimer Σ et pour chaque classe Ck , le vecteur µk . Puis, on
également : donne un score et une prédiction à un point x quelconque à l’aide de
I x1 , . . . , xp sont toutes quantitatives : analyse discriminante (linéaire et P(Ck |x) que l’on calcule grâce à la règle de Bayes.
quadratique). Remarques importantes :
I x1 , . . . , xp forment un mélange de var. quanti. et quali. : régression I Le cas linéaire considère que toute classe Ck possède la même matrice
logistique (binomiale ou multinomiale). de variance-covariance Σ : hypothèse d’homoscédasticité.
Nous verrons essentiellement les méthodes mentionnées ci-dessus. I On aboutit alors à une fonction de score qui est linéaire en x appelée
également score de Fisher.
Mais beaucoup d’autres méthodes existent ! comme les machines à I La méthode peut être vue telle une technique de réduction de
vecteurs supports (svm), les réseaux de neuronnes, les réseaux dimension où l’on cherche simultanément à maximiser l’inertie
bayésiens. . . inter-classe et minimiser l’inertie intra-classe.
Commande lda [MASS].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 81 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 82 / 94

Data Mining prédictif Classement Data Mining prédictif Classement

Analyse quadratique discriminante (QDA) Régression logistique


Principe : pour chaque classe Ck on modélise directement la
Principe : c’est le même cadre formel que précédemment càd pour
probabilité P(Ck |x) par une forme paramétrique. On suppose ensuite
chaque classe Ck on suppose que x|Ck ∼ N (µk , Σk ). Mais ici toute
une loi de distribution pour l’observation du nb d’occurrence des
classe a un vecteur moyen et une matrice de variance-covariance
classes. Les paramètres sont obtenus par maximum de vraissemblance.
distincte Σk . L’abandon de l’hypothèse d’homoscédasticité conduit à
Précisément, dans la régression logistique on a :
une fonction de score qui est quadratique en x. I La 1ère hypothèse concerne la forme paramétrique de P(Ck |x) :
Remarques :
exp(ak0 + a>k x)
I Pour LDA, la fonction de score est linéaire en x ce qui veut dire que P(Ck |x) = Pq
l=1 exp(al0 + a>
l x)
dans l’espace de description, on peut tracer des frontières linéaires
(hyperplans) séparant les classes Ck entre elles. I Ceci est équivalent à supposer q − 1 fonctions logits des odds-ratio :
I Pour QDA, la fonction de score est quadratique en x ce qui veut dire P(Ck |x)
que les frontières séparant les classes dans l’espace de description sont log = ak0 + a>
k x
P(Cq |x)
des courbes.
I La 2ème hypothèse concerne la distribution de probabilité du nb
I QDA est plus flexible que LDA mais demande plus de calculs car il y a
d’occurrences des classes. La régression logistique suppose une loi
q matrices Σk à estimer.
multinomiale qui généralise au cas q > 2 la loi binomiale.
Commande qda [MASS]. Commande multinom [nnet] 25
25. La regression logistique multinomiale est un cas simple de réseau de neuronnes :
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 83 / 94
c’estJ. qAh-Pine (Univ-Lyon 2)
perceptrons en parallèle. Data Mining L3 CESTAT 2017/2018 84 / 94
Data Mining prédictif Classement Data Mining prédictif Classement

Rappels sur la sélection de modèles Mesures de performance

Ce qui a été évoqué précédemment aux slides concernant les Principe : la variable cible y étant discrète, les mesures d’erreur
problèmes de régression reste valable pour les problèmes de reposent principalement sur la matrice confusion qui est une table de
classement : contingence croisant la vérité terrain et les prédictions du modèle.
I l’arbitrage biais-variance et les problèmes de sous et sur-apprentissage,
Matrice de confusion dans le cas q = 2 :
I l’importance de l’erreur en généralisation,
I le protocol expérimental, l’estimation plus robuste par validation fˆ(x)
croisée de l’erreur en généralisation, Total
C1 C2
I les approches “axiomatique” et empirique pour la sélection de modèle C1 a b a+b
et l’accent mis dans ce cours sur l’approche empirique. y
C2 c d c +d
Ce qui est spécifique aux problèmes de classement : Total a+c b+d a+b+c +d =n
I les mesures d’erreur/de performance pour comparer les modèles,
I dans le cas de deux classes (q = 2), la décision de prédiction est prise I a =Nb d’objets C1 correctement catégorisés
en comparant un score et un seuil (“si score de x est supérieur à un I b =Nb d’objets C1 catégorisés en C2
seuil θ alors je mets dans la classe C1 ”). Dans ce cas, on peut utiliser un I c =Nb d’objets C2 catégorisés en C1
outil supplémentaire pour l’évaluation des modèles appelé courbe ROC. I d =Nb d’objets C2 correctement catégorisés

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 85 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 86 / 94

Data Mining prédictif Classement Data Mining prédictif Classement

Mesures de performance (suite) Courbe ROC


A partir de la matrice de confusion on définit : Principe : dans les problèmes de classement binaire (q = 2), la
I Taux d’erreur (“Error rate” ou “Misclassification Rate”) : plupart des méthodes prennent la décision d’affecter dans C1 au
b+c travers d’une fonction de score g . On a f (x) = C1 ssi g (x) > θ où θ
err (fˆ) = est un seuil. Ce seuil est donné par défaut mais si on le change alors
n
les performances du modèle varient également. La courbe ROC
I Taux de réussite ou de reconnaissance (“Accuracy Rate”) :
(“Receiver Operating Characteristics”) permet d’étudier la sensibilité
a+d d’un modèle vis à vis de ce seuil.
acc(fˆ) = = 1 − err (fˆ)
n Quelques précisions :
I La courbe est tracée dans un plan ou chaque axe correspond à deux
I Taux de vrais positifs 26 (“True positive rate” ou “Sensitivity”) :
mesures de performance. Typiquement, fpr en abscisse et tpr en
a ordonnée. Le point (0, 1) correspond au modèle/seuil optimal.
tp(fˆ) =
a+b I La 1ère bissectrice du plan correspond à un modèle de prédiction
I Taux de faux positifs (“False positive rate” ou “False alarm rate”) : aléatoire. Il faut donc avoir une courbe au-dessus de la 1ère bissectrice.
I Si on a deux modèles, on peut tracer deux courbes ROC et celle qui est
c
fp(fˆ) = au-dessus de l’autres correspond au meilleur modèle.
c +d I L’aire en dessous de la courbe ROC (auc) est une valeur synthétisant la
26. On suppose ici que C1 est la classe positive. performance d’un modèle. 1 correspond au modèle optimal.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 87 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 88 / 94
Data Mining prédictif Classement Data Mining prédictif Arbres de decision et fôrets aléatoires

Courbe ROC (suite) Arbres de décision


Illustration de la courbe ROC : Principe : la méthode consiste à découper l’espace de description (càd
celui engendré par les variables explicatives) en hyper-rectangles.
Chaque hyper-rectangle est défini comme la conjonction de plusieurs
1.0

règles simples chacune basée sur une variable explicative. A chaque


hyper-rectangle on associe une valeur de la variable cible.
0.8

X = R+2 X
y
True positive rate
0.6

o o xx x x ≤ x0 x > x0
y1 oo o x x
0.4

x x y > y1 y ≤ y1x
y2 x x x
0.2

o x
x o y ≤y y > y2
2
0.0

x0
0.0 0.2 0.4 0.6 0.8 1.0
False positive rate o x
Commande rpart [rpart].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 89 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 90 / 94

Data Mining prédictif Arbres de decision et fôrets aléatoires Data Mining prédictif Arbres de decision et fôrets aléatoires

Arbres de décision (suite) Bootstrap et Bagging


Remarques importantes :
I A chaque étape une variable est choisie afin de séparer en deux un Principe :
hyper-rectangle existant. Cette séparation est simplement modélisée par I Bootstrap : c’est une méthode de ré-échantillonnage avec remise
une règle. L’ensemble de ces règles est représenté par un arbre binaire.
permettant de disposer de plusieurs échantillons afin d’avoir plusieurs
I La méthode permet de traiter les problèmes de régression et de
estimations de modèles et d’erreurs en généralisation.
classement (binaire ou multi-classe). De plus, elle permet de tenir I Bagging (“bootstrap + averaging”) : c’est un paradigme de méthode
compte des données mixtes.
d’ensemble en apprentissage supervisé qui repose sur le bootstrap.
I En régression, les hyper-rectangles sont définis de sorte à minimiser la
L’idée est d’estimer une même méthode sur plusieurs échantillons
somme des carrés des résidus. La valeur prédite associée à un
bootstrap et de faire une prédiction basée sur un consensus de ces
hyper-rectangle est la moyenne des y des individus de l’hyper-rectangle.
différents modèles estimés qui représentent autant d’opinions distinctes.
I En classement, les hyper-rectangles sont définis afin à minimiser
l’impureté qui est en général mesurer par l’entropie. La valeur prédite Remarques importantes :
associée à un hyper-rectangle est la classe majoritaire des y des I Le consensus pour les pbs de régression est en général une moyenne
individus de l’hyper-rectangle. tandis que pour les pbs de classement c’est le vote majoritaire.
I La méthode est sujette au sur-apprentissage et pour y remédier, on I Le bagging est souvent appliqué avec les arbres de décision car il permet
emploie des méthodes d’élagage (on enlève des branches de l’arbre). de réduire la variance de ces derniers (pb de sur-apprentissage des ad).
I Un avantage certain des arbres de décision est qu’il fournit un modèle
interprétable sous forme de règles “si ... alors ...”.
J. Ah-Pine (Univ-Lyon 2)
X = R+2 Data Mining
X L3 CESTAT 2017/2018 91 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 92 / 94
Data Mining prédictif Arbres de decision et fôrets aléatoires Data Mining prédictif Arbres de decision et fôrets aléatoires

Forêts aléatoires Forêts aléatoires (suite)


Principe : il s’agit du bagging appliqué avec les arbres décisionnels et
auquel on ajoute un échantillonnage sur les variables explicatives. En
effet, lorsqu’un arbre est appris à partir d’un échantillon bootstrap, à
chaque itération, on choisit la variable de séparation dans un
sous-ensemble des variables explicatives qui est pris aléatoirement.
Remarques importantes :
I Choisir aléatoirement un sous-espace de représentation à chaque étape Commande rf [randomForest].
permet de rendre davantage indépendants les échantillons bootstrap
(qui ne le sont pas à la base en raison de le remise). En théorie, cela
permet de réduire la variance globale du modèle. En pratique, les forêts
aléatoires donnent souvent d’excellents résultats.
I La méthode ne nécessite pas de validation croisée ! Pour chaque
échantillon bootstrap, on peut tester le modèle sur les individus
n’appartenant pas à l’échantillonet mesurer l’erreur. On moyenne
ensuite toutes ces mesures, on parle alors de “out of bag error”.
I Les forêts aléatoires sont des “boı̂tes noires” mais, il est possible
d’évaluer l’importance de chaque variable dans le modèle estimé.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 93 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 94 / 94

Vous aimerez peut-être aussi