0% ont trouvé ce document utile (0 vote)

121 vues24 pages

Sommaire: Introduction Et D Efinitions

Ce document introduit le sujet du data mining. Il définit le data mining et explique ses origines dans plusieurs disciplines comme les statistiques, l'intelligence artificielle et les bases de données. Le document présente également une rétrospective historique de ces disciplines.

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

121 vues24 pages

Sommaire: Introduction Et D Efinitions

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Sommaire

Data Mining
1 Introduction et définitions
(Concis et Pratique)
2 Exploration des données
Julien Ah-Pine ([email protected])
3 Data Mining descriptif
Université Lyon 2 - IUT Lumière
4 Data Mining prédictif
L3 CESTAT 2017/2018

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 1 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 2 / 94

Introduction et définitions Introduction et définitions Le Data Mining c’est quoi ?

Rappel du Sommaire Une définition

Data Mining/Knowledge Discovery = Fouille de données/Découverte

de connaissances.
Définition de Wikipédia (2017) :
1 Introduction et définitions I L’exploration de données 1 , connue aussi sous l’expression de fouille
Le Data Mining c’est quoi ? de données, forage de données, prospection de données, data mining,
Les différentes étapes en DM ou encore extraction de connaissances à partir de données, a pour
Exemples d’applications réelles objet l’extraction d’un savoir ou d’une connaissance à partir de grandes
Langage et librairies R pour le DM quantités de données, par des méthodes automatiques ou
semi-automatiques.
Objectifs du cours I Elle se propose d’utiliser un ensemble d’algorithmes issus de disciplines
scientifiques diverses telles que les statistiques, l’intelligence artificielle
ou l’informatique, pour construire des modèles à partir des données,
c’est-à-dire trouver des structures intéressantes ou des motifs selon des
critères fixés au préalable, et d’en extraire un maximum de
connaissances.
1. Terme recommandé par la délégation générale à la langue française et aux langues
de France (DGLFLF)
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 3 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 4 / 94
Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?

A la croisée de plusieurs disciplines Une rétrospective historique (Probabilités)

Les probabilités comme origine des statistiques :

I 17ème siècle : Développement des calculs de probabilités avec Fermat,
Pascal, Jacques Bernouilli (loi des grands nombres)...
Le DM tire profit des STATISTIQUES
I 18ème siècle : ... poursuivi par Laplace (théorème central limite),
atouts et
Condorcet, Bernouilli et Bayes et prémices des statistiques inférentielles
complémentarités de
avec le développement du concept d’erreurs vis à vis de la moyenne du
plusieurs disciplines : BASES DE DATA INTELLIG.
ARTIF. point de vue probabiliste par Laplace.
I Statistiques (ST) DONNEES MINING
I 1ère moitié du 19ème siècle :
I Intelligence Artif. (IA)
(ST) Développement de la méthode des moindres carrés ordinaires
I Calcul scientif. (CS)
CALCUL par Legendre et Gauss ; naissance de la science statistique comme
I Base de données (BD) SCIENT.
discipline indépendante des probabilités ; ouverture du Conseil
Supérieur de Statistique par Quetelet (démographe) en Belgique...
(CS) Babbage invente la machine à calculer programmable (carte
Comment est apparu le DM, où en sommes-nous et où allons-nous ? perforée) et (Ada) Lovelace écrit un programme pour calculer les
nombres de Bernouilli.

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 5 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 6 / 94

Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?

Une rétrospective historique (Statistiques) Une rétrospective historique (Ordinateurs, IA, CS, BD)

Avènement des ordinateurs, leurs impacts sur les statistiques et le

début des disciplines sous-jacentes au DM :
Statistiques “modernes” et intelligence artificielle :
I Années 1940 :
I Fin du 19ème siècle et début du 20ème siècle :
(CS) Avènement de l’informatique et des ordinateurs à la suite des
(ST) Définitions de concepts importants 2 en statistiques fréquentistes,
travaux de Babbage, Turing, Von Neumann... avec l’impulsion
tels que les plans d’expériences, la vraisemblance, les tests
industrielle d’IBM.
d’hypothèses, les intervalles de confiance par Fisher, Pearson,
(ST) Mise en oeuvre de méthodes statistiques avec des ordinateurs sur
Neyman... sur des petits jeux de données.
des petits jeux de données (30 individus et 10 variables).
(ST) Fisher introduit l’analyse discriminante linéaire en 1936.
I Années 1950 :
(CS) En 1936 également, Turing propose sa “machine” qui est un
modèle abstrait du fonctionnement des appareils mécaniques de (IA) Turing publie en 1950 son article intitulé “Computing Machinery
calcul (concept formel de calculabilité/décidabilité -toute forme de and Intelligence”, prémices de l’intelligence artificielle (IA)
calcul peut être représentée numériquement-). cybernétique et de l’apprentissage machine (machine
learning).
(IA) McCullogh et Pitts présentent les premiers travaux sur les réseaux
de neuronnes et Rosenblatt présente le modèle de perceptron.
2. Développement également de la théorie moderne des probabilités -théorie de la (ST) Cox introduit la régression logistique binomiale en 1958.
mesure- avec Borel.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 7 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 8 / 94
Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?

Une rétrospective historique (Ordinateurs, IA, CS, BD) Une rétrospective historique (Ordinateurs, IA, CS, BD)
I Années 1960 : I Années 1970 (Ko) :
(ST) Critiques du point de vue fréquentiste en statistique et renouveau (IA) Premier hiver de l’IA : bcp de désilusions, promesses non tenues,
des statistiques bayésiennes en incorporant aux modèles des arrêt des financements.
informations subjectives (a priori) sous l’impulsion de Savage. (IA) Développement par Werbos de l’algorithme de
(ST) Benzécri et Escoffier introduisent l’AFC en 1962 et initient ainsi rétro-propagation pour l’apprentissage de réseaux de neuronnes
l’école française d’analyse des données. multicouches et solution apportée aux cas non-linéairement
(IA) Critique des réseaux de neuronnes (non-solvabilité des cas séparables.
non-linéairement séparables comme XOR) et développement de (ST) Du point de vue statistique/informatique : traitement d’un plus
l’IA symbolique (science cognitive, logique, bases de grand nombre de données et notamment de variables,
connaissance...) sous l’impulsion de Minsky et McCarthy développement des statistiques multidimensionnelles et de
(inventeur de LISP) du MIT. l’analyse de données.
(IA) Age d’or de l’IA symbolique : des ordinateurs résolvent des (ST) Nelder et Wedderburn formalisent le modèle linéaire généralisé
problèmes algébriques de mots, demontrent des théorèmes dans leur livre ”Generalized Linear Models” en 1972.
géométriques, apprennnent à parler l’anglais... Beaucoup (BD) Début des bases de données relationnelles (BDR) et
d’engouement et d’investissement aux USA notamment. ordinateurs de bureau : développement par Codd (IBM) des
(BD) Avènement des disques de données (par opposition aux cartes) et BDR décrivant une approche pour stocker et requêter des données
du concept de base de données. à partir d’une base. Le langage SQL apparaı̂t fin des années 70.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 9 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 10 / 94

Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?

Une rétrospective historique (Ordinateurs, IA, CS, BD) Une rétrospective historique (Data Mining)
I Années 1980 (Mo) : Avènement du Data Mining (DM) :
(IA) Succès commercial des systèmes experts qui donnent un I Années 1990 (Go) :
renouveau à l’IA symbolique (bases de connaissance) sous (DM) Le terme Data Mining apparaı̂t au sein de la communauté BD
l’impulsion des travaux de Feigenbaum. Exemple : Mycin permet pour caractériser les besoins en aide à la décision à partir de
de diagnostiquer les maladies infectieuses du sang. données. Le domaine est stimulé par des problémes opérationnels
(IA) Quinlan introduit les arbres de décision en 1986. au sein d’entreprises. Début du marketing quantitatif et de la
(IA) Renouveau également de l’IA cybernétique suite aux travaux de gestion de la relation client (CRM).
Werbos, Rumelhart (rétro-propagation) et Hopfield (reseaux de (DM) Agrawal and Srikant introduisent l’algorithme apriori pour la
neuronnes récurrent). recherche de règles d’association dans des BD en 1994.
(CS) Ce nouvel élan est lié à l’algorithme de rétro-propagation mais (IA) Deuxième hiver de l’IA : le développement et la puissance des
également aux débuts du calcul parallèle et distribué. ordinateurs de bureau (Apple et IBM) surpasse celle des
(ST) Du côté statistique, se développent les méthodes ordinateurs programmés en LISP qui deviennent chers à
non-paramétriques (on tente de s’affranchir du biais inductif). maintenir. Nouveau gel des financements de l’industrie IA.
(BD) Les données sont stockées sur plusieurs ordinateurs de bureau. Les (www) Le web prend naissance et se développe rapidement : on passe de
besoins en analyses persistent. Les entrepôt de données 26 sites web en 1992 à prés de 10 millions de sites en 1999.
introduits par Inmon émergent à la fin des années 80. (ST) Approches innovantes en statistiques : SVM de Vapnik et Cortes,
(DM) Au même moment, le terme “Knowledge Discovery in Boosting de Freund et Schapire, Bagging et Arcing de Breiman,
Databases” est utilisé pour la 1ère fois par Piatetsky-Shapiro. LASSO de Tibshirani, GAM de Hastie, Tibshirani. . .
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 11 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 12 / 94
Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Le Data Mining c’est quoi ?

Une rétrospective historique (Data science et Big data) Une rétrospective historique (Data science et Big data)
(ST) Avènement du Data Science en 2001 par Cleveland dans un
Data science et big data, suites logiques des statistiques et du DM : article intitulé “Data Science : An Action Plan for Expanding the
Technical Areas of the Field of Statistics” montrant la nécessité
I Années 2000 (To) :
d’intégrer les outils de calcul scientifique dans le champs
(www) Développement du web social et des smartphones : capacités
d’expertises des statistiques. Le data science peut être vu comme
accrues de stockage et d’échange de fichiers multimédia,
les statistiques avec des outils modernes de calcul scientifique.
expansion des activités économiques du e-commerce
(BD) Introduction des bases de données NoSQL comme Bigtable de
(recommandation, analyse de traces...). Tout ceci provoque un
Google en 2004, pour le stockage distribué des données
changement de paradigme : les données sont non-structurées,
volumineuses et non-structuées.
complexes et peuvent être de très grande dimension (texte,
(CS) Débuts du calcul distribué comme MapReduce de Google pour
image. . . ), les outils informatiques et les modèles d’analyse
effectuer des requêtes et calculs sur des données non-structurées
(statistiques, IA) doivent s’adapter à ces caractéristiques.
et distribués.
(ST) Développement de la branche apprentissage statistique. I Années 2010 (Po) :
Importance des concepts biais et variance : ce qui importe c’est
(DM) Avènement du Big Data (depuis la fin des années 2000) pour le
la qualité des connaissances découvertes et/ou des prédictions
stockage, le requêtage et l’analyse de données massives mais en
obtenues et non pas l’ajustement d’un modèle à des données.
mettant l’accent sur les 4V : Volume, Variété, Vélocité et
(ST) Le livre de référence “The Elements of Statistical Learning”
Véracité. Le big data peut être vu comme du DM avec des
d’Hastie, Tibshirani et Friedman sort en 2001.
technologies modernes de stockage et de calculs distribués.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 13 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 14 / 94

Introduction et définitions Le Data Mining c’est quoi ? Introduction et définitions Les différentes étapes en DM

Une rétrospective historique (Data science et Big data) Schéma

Validation,
PROCESSUS DE Visualisation,
Interprétations...
DECOUVERTE DE
(BD)(CS) Développement à partir de 2011, de l’écosystème libre Hadoop et CONNAISSANCES Segmentation, Connaisances
du calcul distribué MapReduce pour répondre aux besoins Régression,
Classement...
croissants de l’analyse de données massives.
(BD)(CS) Développement à partir de 2014 de l’outil libre Spark, qui va plus Exploration, Résultats
Transformation, d’analyse
loin que le MapReduce classique en permettant des calculs Ajout/Réduction
distribués et itératifs nécessaires aux algorithmes de DM. de dimension...
Données
(IA) Retour en grâce des réseaux de neuronnes : la puissance des transformées
Inventaire,
serveurs de calcul permettent de mettre en oeuvre ces méthodes Sélection,
sur des données très massives. Le deep learning est la méthode Intégration...

de DM la plus en vogue de ces dernières années : très performant Données

cibles
pour de nombreux problèmes en image, texte, son. . .
(IA) L’algorithme AlphaGO de Google basé sur du deep learning bat
Bases de
un champion humain du jeu de Go en 2015 et en 2016. données

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 15 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 16 / 94
Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM

Inventaire, Sélection et Intégration des données Exploration, Transformation des données

En amont, il faut clairement définir et/ou identifier :
Il faut faire “connaissance” avec les données pour commencer à
Ile phénomène : “qu’est-ce que j’étudie ?”
I la tâche : “qu’est ce que je veux faire (découvrir ? prédire ?) ?” appréhender le phénomène à l’étude !
I la population : “quelles observations 3 je vais utiliser ?” Pour cela, les outils statistiques pertinents sont :
B Cela demande une bonne connaissance “métier” càd le contexte et les I Les statistiques descriptives univariées (tendance centrale, de
données sur lesquels porte l’étude. dispersion. . . ) pour :
Ensuite, il faut rassembler des informations sur le phénomène : F appréhender les caractéristiques simples des variables,
I Faire l’inventaire des variables 4 existantes. I Les graphiques (histogrammes, diagrammes en bâtons, camenberts,
I Sélectionner les variables en relation avec ma tâche. boı̂tes à moustache) pour :
I Intégrer ces variables pouvant provenir de plusieurs sources/BD au sein
F visualiser les caractéritiques simples, la distribution, des variables ;
d’un même jeu de données 5 .
Cette partie utilise des compétences en BD/DW/ETL mais nous
I Les statistiques descriptives bivariées (mesures de corrélation,
d’association. . . ) pour,
n’aborderons pas ces aspects.
F identifier les variables qui sont corrélées ;
Nous supposons que le jeu de données à été construit et nous nous
I Les statistiques exploratoires multidimensionnelles (ACP, AFC,
consacrerons en particulier à l’analyse.
ACM. . . ) pour :
3. ou individus, ou objets, ou entités.
F visualiser de façon synthétique les grandes tendances.
4. ou descripteurs ou attributs ou features.
5. Voire d’un entrepôt de données si besoin
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 17 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 18 / 94

Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM

Exploration, Transformation des données (suite) Exploration, Transformation des données (suite)
Transformer une variable quanti. en une variable quanti. :
Identifier, gérer les données manquantes : I Lorsque les variables son exprimées dans différentes échelles, celles-ci
peuvent créer un biais dans les méthodes utilisées. Il est important dans
I Si le jeu de données et suffisamment grand, on pourra :
ce cas de normaliser les variables en centrant et réduisant par exemple.
F enlever toute obs. comportant des données manquantes.
I Lorsque les variables ne satisfont pas aux hypothèses d’un modèle
I Si le jeu de données n’est pas suffisamment grand, on pourra : utilisé. Dans ce cas, transformer la variable par une fonction permet de
F remplacer une donnée manquante par une moyenne, la ramener dans les hypothèses requises. Ex : dans le modèle linéaire
F utiliser une méthode d’imputation plus élaborée. gaussien, il est requis que les variables suivent des lois normales.
Identifier et traiter les observations aberrantes : Transformer une variable quanti. en une variable quali. :
I L’étude d’une boı̂te à moustache permet d’identifier les obs. ayant des I Il est utilie de transformer une variable quanti. en quali., lorsque cela
valeurs extrêmes. facilite l’interprétation ou lorsque cela est requis par la méthode utilisée.
I Il faut étudier ces obs. et les enlever si elles peuvent causer un biais On parle de discrétisation. Elle peut être manuelle ou automatique.
dans l’estimation des méthodes utilisées : Transformer une variable quali. en une variable quali. :
F cas d’une obs. hors-norme, I Lorsque l’on a besoin de recoder les modalités (exprimées par du texte
F cas d’une obs. avec des erreurs de mesures. par exemple) d’une variable quali. en un autre format (code
numérique).
I Lorsque l’on souhaite regrouper plusieurs modalités en une seule.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 19 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 20 / 94
Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM

Exploration, Transformation des données (suite) Segmentation, Régression, Classement

Cette étape représente la partie analyse de la procédure de DM où
l’objectif est l’extraction des connaissances.
On peut faire la distinction entre deux types d’analyse :
Transformer une variable quali. en une variable quanti. : I L’analyse descriptive ou apprentissage non-supervisé. Le but est de
I Cela est souvent pratiqué par l’école anglo-saxonne où l’on ramène une mettre en évidence des régularités, tendances, corrélations. . . au sein
(ou plusieurs) variable quali. à un score numérique. Dans ce cas, les des données afin d’obtenir des connaissances “cachées” sur le
techniques factorielles telles que l’ACM peuvent être utilisées. phénoméne à l’étude.
On distingue (au moins) deux types de tâche :
F La classification automatique qui vise à partitionner la
Le problème plus général des données mixtes :
population en plusieurs classes. Chaque classe est un groupe
I De nombreuses méthodes ne permettent pas de traiter simultanément
homogène d’obs. qui sont plus similaires entre elles qu’elles ne le
des variables quanti. et quali. Dans ce cas, il est nécessaire de
sont avec les obs. des autres groupes. Le but est aussi de savoir
transformer les quanti. en quali. ou les quali. en quanti.
quelles sont les variables discriminantes de chaque classe.
F La recherche de règles d’association qui tente de déterminer

quelles valeurs de quelles variables vont très souvent ensembles

avec quelles valeurs de quelles autres variables. Les résultats
obtenus sont des règles de type “si conditions alors résultats”.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 21 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 22 / 94

Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM

Segmentation, Régression, Classement (suite) Validation, Visualisation et Interprétation des résultats

L’étape de validation est importante à plusieurs égards :
I L’analyse prédictive ou apprentissage supervisé. Dans ce cas et
I Il existe plusieurs méthodes pour les différentes tâches citées
contrairement à l’approche descriptive, il existe une variable cible (d’où précédemment. Cette étape sert alors à déterminer laquelle des
le terme supervisé) et l’objectif est d’estimer une fonction permettant méthodes testées donne les meilleures performances. Il existe des
de prédire pour une observation donnée la bonne valeur de la variable protocoles et critères pour comparer les méthodes entre elles (cf
cible. ci-dessous).
Il existe deux types de problèmes :
I Cette étape permet aussi d’avoir un retour expert sur la méthode
F Les problèmes de régression : la variable cible est alors
retenue. Est-ce que les résultats permettent véritablement d’extraire
des connaissances nouvelles ? C’est la dimension “humaine” de la
quantitative. Ex : prédiction des recettes d’un film étant donné les
validation qui est tout aussi primordiale.
acteurs, les producteurs, le budget. . .
F Les problèmes de classement 6 : la variable cible est dans ce cas
Pour la classification automatique on distingue :
discrète. Ex : prédiction de l’avis général sur un film entre “nul,
I Validation externe : on dispose d’une partition de référence et on
pas terrible, moyen, bon, super” étant donné les acteurs, les compare le résultat de la méthode avec cette partition selon plusieurs
producteurs, le budget. . . critères (indice de Rand corrigé par ex.).
I Validation interne : on mesure l’homogénéité des classes et de la
partition obtenue à partir de plusieurs critères (intertie intra-classe,
inter-classe par ex.).
6. ou catégorisation ou classification supervisé.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 23 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 24 / 94
Introduction et définitions Les différentes étapes en DM Introduction et définitions Les différentes étapes en DM

Validation, Visualisation et Interprétation des résultats Validation, Visualisation et Interprétation des résultats
(suite) (suite)

Pour les règles d’association, il existe plusieurs critères pour mesurer

la pertinence d’une règle extraite (support, confiance, lift par ex.)
Pour chaque tâche, chaque type de critère d’évalutaion, il peut exister
En apprentissage supervisé (régression et classement), ce qui est
plusieurs types de graphique permettant de visualiser les
important c’est de pouvoir prédire correctement sur des données non
performances des méthodes et de les comparer entre elles.
encore observées. Pour cela, on a recours classiquement à de la
validation croisée afin d’avoir une estimation de l’erreur en
généralisation. Il est important de comprendre les protocoles expérimentaux et les
Il existe plusieurs mesures d’erreurs selon le problème considéré : critères d’évaluation, afin d’avoir une bonne interprétation des
I Pour un problème de régression : erreur quadratique moyenne (MSE) résultats d’expériences dans le but de choisir la bonne méthode.
ou erreur moyenne en valeur absolue (MAE). . .
I Pour un problème de classement : taux d’erreur, précision, rappel,
courbe ROC. . .

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 25 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 26 / 94

Introduction et définitions Exemples d’applications réelles Introduction et définitions Exemples d’applications réelles

Quelques applications Industries qui utilisent le DM

Vente, marketing :
Source : kdnuggets.com 7 (site de G. Piatetsky-Shapiro)
I Gestion de la relation client (ex : score d’appétence -achat-)
I Segmentation de la clientèle. . .
Banque, finance, assurance : Industries - Fields where you applied Analytics, Data Mining, Data
I Détection de fraudes (ex : comportements atypiques), Science in 2016 ?
I Score de risque (ex : attribution ou pas de crédit). . . The most popular areas were
Médecine, industrie pharmaceutique : I CRM/Consumer analytics, still n. 1 at 16.3% but down from 18.6%
I Réponse d’un patient vis à vis d’un traitement, share in 2015.
I Identification de facteurs de risques. . . I Finance, 15.0% (almost the same as in 2015)
Génome humain, bio-informatique : I Banking, 13.4% (slightly down)
I Advertising, 12.0% (up 35% from 2015)
I Relations entre l’ADN et des maladies,
I Science, 12.0% (almost the same)
I Détection de rôles joués par des gènes. . .
I Health care, 12.0% (11% down)
B Le DM peut s’appliquer à tout phénomène dont on peut mesurer des I ...
observations (stockables dans une BD) et qu’on souhaite appréhender
les caractéristiques et/ou qu’on souhaite prévoir le comportement. 7. http://www.kdnuggets.com/2016/12/poll-analytics-data-mining-data-science-applied-2016.
html
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 27 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 28 / 94
Introduction et définitions Exemples d’applications réelles Introduction et définitions Exemples d’applications réelles

CRISP-DM Remarques supplémentaires sur le déploiement

Cross Industry Standard Process for Data Mining 8 : procédure Dans un cadre opérationnel, le déploiement fait suite à la validation
communément utilisée par les data miner (DM) en entreprise. et à cette étape le DM prend concrètement une dimension business.
Prenons l’exemple d’une banque. L’équipe DM a mis en place une
méthode de scoring pour une nouvelle offre de crédit. Le déploiement
Compréhension
Compréhension
métier
métier
Compréhension
Compréhension
des
desdonnées
données
va consister à diffuser auprès des opérationels (les banquiers) soit
la méthode (via un logiciel), soit les résultats de la méthode (via un
rapport, une feuile de tabeur, une table dans une base de données. . . ).
Préparation
Préparation
des
desdonnées
données L’équipe DM doit présenter la méthode aux opérationels de
Déploiement
Déploiement DONNEES façon accessible, en évitant les détails techniques et en exposant : le
but recherché, le principe de l’outil, son fonctionnement mais aussi
Modélisation
Modélisation ses limites. C’est la dimension aide à la décision du DM.
Il est ensuite important de suivre l’utilisation et les performances
de la méthode. Est-ce que la méthode de scoring est performante ?
Evaluation
Evaluation Est-ce que les clients à qui on a octroyé un crédit le remboursent
véritablement ? Il s’agit ici de reporting qui permet d’enrichir la
8. Fondé en 1996 par les entreprises NCR, SPSS, Daimer-Benz. compréhension métier et on obtient ainsi un cercle vertueux.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 29 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 30 / 94

Introduction et définitions Langage et librairies R pour le DM Introduction et définitions Langage et librairies R pour le DM

Quelques outils pour le DM Pourquoi le langage R ?

Le langage R 9 est, avec Python, l’un des deux principaux langages
pour le DM/Data Science.
Ceux qui sont propriétaires et payants : Communauté active avec une conférence annuelle : useR !
I SAS
Beaucoup de librairies : Comprehensive R Archive Network 10 .
I SPSS
I SPAD Une revue scientifique : The R Journal 11 .
I Knime Un IDE de référence qui est libre également : Rstudio 12 .
I ... Plusieurs ressources “cheatsheets” disponibles 13 .
Ceux qui sont open source et/ou gratuits :
B R
I Python

I Weka
I Daiku 9. https://www.r-project.org/
I ... 10. https://cran.r-project.org/
11. https://journal.r-project.org/
12. https://www.rstudio.com/
13. https://www.rstudio.com/resources/cheatsheets/, http://www.rdatamining.com/docs/
RDataMining-reference-card.pdf?attredirects=0&d=1, http://www.thinkr.fr/le-blog/
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 31 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 32 / 94
Introduction et définitions Langage et librairies R pour le DM Introduction et définitions Objectifs du cours

R est en vogue ! Objectifs

Source kdnuggets.com 14 .

Aborder chaque étape du DM à partir d’exemples réels.

Rappeler/introduire des méthodes classiques de façon concise.
Savoir mettre en oeuvre ces méthodes avec le langage R.
Savoir mettre en place le protocole expérimental adéquat.
Savoir interpréter les résultats.
B Etre opérationnel !

14. http://www.kdnuggets.com/2016/06/r-python-top-analytics-data-mining-data-science-software.
html
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 33 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 34 / 94

Introduction et définitions Objectifs du cours Exploration des données

Organisation des séances Rappel du Sommaire

Introduction brève des méthodes ∼30 minutes.

Déroulement des TP ∼60-70 minutes. 2 Exploration des données
Correction et interprétation des résultats ∼15 minutes. Commandes utiles et imports de données
Statistiques descriptives univariées et bivariées
La dernière séance programmée sera l’examen : Quelques tests statistiques
I Cas à analyser. Manipulation et transformation de données
I Code R et interprétations à restituer.

Les supports de cours et sujets de TP sont disponibles au fil de l’eau

sur mon site eric.univ-lyon2.fr/∼jahpine/.

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 35 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 36 / 94
Exploration des données Commandes utiles et imports de données Exploration des données Commandes utiles et imports de données

Commandes utiles Import de données

Gestion des librairies :
I Liste des librairies chargées : search Format natif de R (.Rdata) :
I Installation : install.packages I load
I Chargement : library Format texte CSV (.csv) :
I L’utilisation de l’onglet Packages de Rstudio est très pratique ! I read.table
Gestion des variables : I read.csv
I Sauvegarde de variables : save (fichier Rdata)
Format Excel (.xlsx) :
I Chargement d’un ensemble de variables : load
I Supprimer une variable de l’envir. de travail : rm
I read.xlsx [xlsx]
Export des données : Format SAS (.xpt), SPSS (.sav) :
I Format texte CSV : write.csv I sasxport.get [Hmisc]
I Format Excel : write.xlsx [xlsx] I spss.get [Hmisc]
Commentaires : # Ressources en-ligne :
Remarque sur la notation : commande [librairie] (le cas échéant) I http://www.statmethods.net/input/importingdata.html
Ressources en-ligne : I http://www.rdatamining.com/docs/
I http://www.rdatamining.com/docs/ introduction-to-data-mining-with-r-and-data-import-export-in-r
introduction-to-data-mining-with-r-and-data-import-export-in-r
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 37 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 38 / 94

Exploration des données Statistiques descriptives univariées et bivariées Exploration des données Statistiques descriptives univariées et bivariées

Tendances centrales Indicateurs de dispersion/répartition

Principe : résumer la distribution d’une variable en un nombre.

Variable quantitative : Principe : mesurer la dispersion/concentration d’une variable.
I Moyenne (mean) Variable quantitative :
I Médiane (median) I Variance (var)
Variable qualitative : I Ecart-type (sd)
I Etendue (range)
I Mode (summary)
I Quartiles (quantile)
Commandes donnant plusieurs indicateurs :
Variable quanlitative :
I summary
I Fréquences (table)
I describe [Hmisc]
I describe [psych] Ressources en-ligne :
I http://www.statmethods.net/stats/descriptives.html
Ressources en-ligne :
I http://www.rdatamining.com/docs/data-exploration-and-visualization-with-r
I http://www.statmethods.net/stats/descriptives.html
I http://www.rdatamining.com/docs/data-exploration-and-visualization-with-r

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 39 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 40 / 94
Exploration des données Statistiques descriptives univariées et bivariées Exploration des données Statistiques descriptives univariées et bivariées

Corrélations et associations Graphiques de statistiques univariées

Principe : mesurer une relation de dépendance entre deux variables.

Variables quanti./quanti. :
I Covariance (cov) Variable quantitative :
I Corrélation de Bravais-Pearson (cor) I Boı̂te à moustache (boxplot)
Variables quali./quali. : I Histogramme (hist)
I Table de contingence (table) I Estimation à noyau de la densité (plot(density))
I Coefficient Chi2 (chiqs.test(table)) Variable qualitative :
I Coefficient Phi 15 (Phi [DescTools]) I Camembert (pie)
I Coefficient de Tchuprow 16 (TschuprowT [DescTools]) I Diagramme à bâtons (barplot(table))
Variables quanti./quali. : Variables quanti./quali. :
I Statistiques univariées d’une variable quanti. par groupe de modalités I Boı̂te à moustache par modalité (boxplot(quanti~quali))
d’une variable quali. (aggregate(quanti~quali,summary))
I Rapport de corrélation 17 (eta2 [BioStatR])
15. https://en.wikipedia.org/wiki/Phi coefficient
16. https://en.wikipedia.org/wiki/Tschuprow’s T
17. https://en.wikipedia.org/wiki/Correlation ratio
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 41 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 42 / 94

Exploration des données Statistiques descriptives univariées et bivariées Exploration des données Quelques tests statistiques

Graphiques de statistiques bivariées Tests statistiques

Variables quanti./quanti. :
Tests d’adéquation à une loi donnée pour variable quantitative :
I Nuage de points 18 entre deux variables (plot) I Loi normale : test de Shapiro-Wilk 19 (shapiro.test)
I Nuage de points entre plusieurs couples de variables (pairs) I Loi quelconque : test de Kolmogorov-Smirnov 20 (ks.test)
Variables quali./quali. :
Tests de corrélation entre deux variables quantitatives :
I Table de contingence “graphique” (balloonplot(table) [gplots]) I Tests de Pearson ou Kendall ou Spearman (cor.test)
I Table de contingence des résidus du test de Chi2 “graphique”
(assoc(table) [vcd]) Test d’indépendance entre entre deux variables qualitatives :
Variables quantis./quali. :
I Tests du Chi2 (chisq.test)
I Coordonnées parallèles de plusieurs variables quanti. par modalité d’une Test de comparaison de populations :
variable quali. (parcoord [MASS]) I ANOVA à 1 facteur 21 (aov)
Références en-ligne :
I Test de Kruskal-Wallis 22 (kruskal.test)
I http://www.statmethods.net/graphs/scatterplot.html
I http://www.statmethods.net/advgraphs/mosaic.html 19. https://en.wikipedia.org/wiki/Shapiro%E2%80%93Wilk test
I http://www.rdatamining.com/docs/data-exploration-and-visualization-with-r 20. https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov test
21. https://en.wikipedia.org/wiki/One-way analysis of variance
18. https://en.wikipedia.org/wiki/Scatter plot 22. https://en.wikipedia.org/wiki/Kruskal%E2%80%93Wallis one-way analysis of variance
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 43 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 44 / 94
Exploration des données Quelques tests statistiques Exploration des données Manipulation et transformation de données

Détection des points aberrants Manipulation de données avec dplyr

Introduction à la librairie [dpylr].

Par analyse graphique :
Principe : Sélectionner, croiser des variables et automatiser certains
I Un point extrême d’une boı̂te à moustache peut être considéré comme
calculs/prétraitements dans une grammaire lisible.
aberrant si :
F si sa valeur absole dépasse la moyenne + 3 fois l’écart type,
Sélection de variables (colonnes d’un data.frame) :
F si sa valeur est au-dessus de Q3+1.5(Q3-Q1) ou au-dessous de
I Extraction de variables (select).
Q1-1.5(Q3-Q1) où Q1 et Q3 sont les 1er et 3ème quartiles (règle I Matching sur nom des variabes (starts with, contains, ends with,
de Tukey). ...)
Par test statistique : Sélection d’individus (lignes d’un data.frame) :
I Test de Dixon 23 (dixon.test [outliers]) I Extraction d’individus (filter + conditions logiques)
I Test de Grubbs 24 (grubbs.test [outliers]) I Détection des doublons (distinct)
I Echantillonage (sample frac,sample n)
Ressources en ligne :
I https://www.rstudio.com/wp-content/uploads/2016/01/data-wrangling-french.pdf
23. https://en.wikipedia.org/wiki/Dixon%27s Q test
24. https://en.wikipedia.org/wiki/Grubbs%27 test for outliers
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 45 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 46 / 94

Exploration des données Manipulation et transformation de données Exploration des données Manipulation et transformation de données

Résumés de données (calculs d’indicateurs) avec dplyr Construction de nouvelles variables avec dplyr

Principe : transformer une ou plusieurs variables afin d’obtenir une

nouvelle variable.
Principe : à partir d’un sous-ensemble de lignes, calculer un indicateur.
Quelques actions possibles (liste non exhaustive) :
Quelques actions possibles (liste non exhaustive) : I Action sur une variable (mutate)
I Action sur une variable (summarize). I Action sur toutes les variables (mutate all)
I Action sur toutes les variables (summarize all)
I Action de dénombrement sur une variable (qualitative) (count) Quelques transformations classiques : pmin, pmax . . .
Quelques indicateurs classiques : min, max, mean, sd . . . On peut définir sa propre transformation par une fonction !
On peut définir son propre indicateur par une fonction ! Utilisation pour le recodage des variables :
I Variable Quali. → Quali. (recode factor)
I Variables Quanti.+Quali. → Quali. (mutate + case when +
conditions logiques . . . )

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 47 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 48 / 94
Exploration des données Manipulation et transformation de données Exploration des données Manipulation et transformation de données

Regroupement de données et %>% avec dplyr Discrétisation de variables quantitatives

Principe du regroupement de données :

analyser une variables qualitative ou le croisement de plusieurs
variables qualitatives. Principe : transformer une variable quantitive en une variable
I Regroupement des lignes selon les modalités de variable(s) qualitative en définissant manuellement ou automatiquement des
qualitative(s) (group by) intervalles.
Principe du “pipe” %>% : Nous appliquerons la discrétisation manuelle :
enchaı̂ner plusieurs opérations, l’input d’une opération étant l’output I Découpage selon des points définissant des intervalles (cut)
de l’opération précédente. Il existe des méthodes plus avancées. Vous pouvez utiliser par
Exemple : exemple la librairie [smbinning] avec la ressource en-ligne suivante
iris %>% group by(Species) %>% http://blog.revolutionanalytics.com/2015/03/
summarize(m=mean(Sepal.Length)) r-package-smbinning-optimal-binning-for-scoring-modeling.html.

Le %>% permet d’avoir une lecture simple du “workflow”.

Il existe d’autres opérateurs de ce type ([magritt]).

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 49 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 50 / 94

Exploration des données Manipulation et transformation de données Data Mining descriptif

Gestion des données manquantes Rappel du Sommaire

Les données manquantes en R sont symboliquement marquées par NA

(“Non Attributed”).
Quelques commandes de base pour gérer les données manquantes :
3 Data Mining descriptif
I Test si présence d’une donnée manquante (is.na).
Analyse de données
I Test de lignes complètes (complete.cases).
Classification automatique
Il existe plusieurs méthodes d’imputation mais nous utiliserons des Règles d’associations
approches classiques.
En particulier, nous mettons en oeuvre les outils proposés par
[dplyr] cités précédemment.
Pour aller plus loin, il existe la librairie [mince] et la ressource en
ligne suivante par exemple
https://datascienceplus.com/imputing-missing-data-with-r-mice-package/.

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 51 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 52 / 94
Data Mining descriptif Data Mining descriptif Analyse de données

Analyse descriptive Méthodes de réduction de dimension

Nous disposions d’une table de données avec n individus et p
variables que l’on notera x1 , . . . , xp . Principe : représenter de façon “efficace” et “intelligente”
L’objectif est d’explorer ces données par des méthodes statistiques l’information contenue dans une table au travers de graphiques
afin d’en extraire/découvrir des informations pertinentes. On parle présentant les données dans une espace géométrique de dimension
d’apprentissage non-supervisé car il ne s’agit pas de modéliser une faible.
variable en particulier. Concepts sous-jacents :
Les méthodes de réduction de dimension (ACP, AFC, ACM) en I Le terme information est ici de nature géométrique et repose
analyse de données permettent de représenter les données dans des pincipalement sur la notion de variance d’un nuage de points : de
espaces réduits et ce faisant, elles mettent en valeur les tendances combien en moyenne les points sont distants du barycentre.
principales en déterminant les associations/oppositions entre individus I Les notions de distances (métriques) sont donc fondamentales. On
et variables de façon simultanée. détermine un sous-espace vectoriel de faible dimension au sein duquel
le nuage projeté est le moins déformé possible.
Les méthodes de classification automatique agissent praticulièrement I On montre que déterminer ce sous-espace vectoriel revient à
au niveau des individus. Elles viennent souvent compléter les déterminer la décomposition spectrale (recherche de valeurs et vecteurs
méthodes de réduction de dimension en déterminant de façon claire propres) d’une matrice carrée symétrique définie positive.
les contours de groupes homogènes conduisant à une typologie de la
population.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 53 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 54 / 94
Dans le cas de données qualitatives, l’extraction de règles
d’association permet de déterminer
Data Mining descriptif
des groupes de modalités qui
Analyse de données Data Mining descriptif Analyse de données
cooccurrent fréquemment ensemble. Le résultat est présenté sous
Méthodes
forme dede base
règles (proposition logique) et celles-ci mettent alors en Outils en R et ressources en ligne
évidence des associations fortes entre plusieurs variables.

Les tables de données peuvent être de différentes natures et selon le Il existe plusieurs outils en R pour faire de l’ADD :
type de variables on a une méthode particulière. I Commandes de base (svd, eigen, prcomp, princomp)
I Plusieurs librairies ([MASS], [sca], . . . )
Si les variables sont quantitatives on parle d’Analyse en Composantes I Ressource en ligne : https://cran.r-project.org/web/views/Multivariate.html
Principales (ACP). (sections “Projection methods” ou “Correspondance analysis”)
Si on étudie le croisement de deux variables qualitatives on parle Nous utiliserons principalement la librairie (française) [FactoMineR].
d’Analyse Factorielle des Correspondances Simple (AFC).
Ressources en ligne :
Si les variables (plus de deux) sont qualitatives, on parle d’Analyse I Site de la librairie : http://factominer.free.fr/.
(Factorielle) des Correspondances Multiples (ACM). I Article : http://factominer.free.fr/docs/article FactoMineR.pdf .
Si les variables sont un mélange de quanti. et quali. on parle Livre associé : F. Husson, S. Lê, J. Pages, “Analyse de données avec
d’Analyse Factorielle de Données Mixtes (AFDM). R”, Presses Universitaires de Rennes.

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 55 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 56 / 94
Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique

L’algorithme des k-moyennes (k-means) L’algorithme des k-moyennes (k-means)

Principe : Affecter un individu à la classe dont le barycentre est le
plus proche. Mettre à jour l’affection de cet individu et le barycentre
de son ancienne et nouvelle classe. Itérer ces opérations pour tous les x1
individus et jusqu’à convergence.
Remarques importantes : x4
x3
I On raisonne dans un espace euclidien et les variables sont donc
continues.
I La mesure de proximité utilisée est la distance euclidienne (avec poids x2
uniforme sur les variables).
I Le barycentre est le vecteur moyen et par défaut les individus ont tous x5
un poids uniforme.
I D’un point de vue optimisation, la procédure diminue la variance x7
intra-classe et augmente la variance inter-classes à chaque itération.
I Complexité en O(n) (si p et k sont petits).
I Cet algorithme détecte des classes qui sont de forme sphérique dans x6
leur représenation géométrique.
Commande kmeans.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 57 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 58 / 94

Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique

La classification ascendante hiérarchique (CAH) La classification ascendante hiérarchique (CAH)

Principe : Regrouper itérativement les deux classes les plus proches
jusqu’à ce que tous les individus soient regroupés en une seule classe.
On obtient une succession de classes emboı̂tées.
Remarque importante :
x1
I L’input classique de cette procédure est une matrice de dissimilarités.
I On ne fixe pas a priori le nombre de classes et on peut couper a x4
posteriori l’arbre afin d’avoir une partition en k classes.
I Peut traiter tout type de données (quanti., quali., mixtes, x3
x2
relationnelles) à condition d’avoir une matrice de dissimilarités.
x5
I Plusieurs méthodes existent pour calculer la dissimilarité entre une
nouvelle classe et les autres classes mais la formule paramétrique de
Lance-Williams permet d’unifier sept techniques particulières.
I L’ensemble de ces techniques permet de tenir compte de nombreuses x6
x1 x2 x3 x4 x5 x6
situations. Contrairement aux k-means, on peut détecter des classes de
forme non sphérique (méthode single par exemple).
I Complexité en O(n3 ) (donc plus coûteux que les k-means).
Commandes hclust, cutree.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 59 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 60 / 94
Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique

L’algorithme des k-modes CAH de Ward et réduction de dimension

Principe : les méthodes de réduction de dimension permettent de
Principe : Extension de l’algorithme des k-moyennes aux données
mettre en lumière différents groupes d’individus sans pour autant en
qualitatives. La procédure est la même. C’est le concpet de barycentre
dessiner des contours exacts. On peut alors utiliser une méthode de
qui change : le vecteur représentant d’une classe est le vecteur dont
classification automatique pour détecter des classes.
chaque variable est donnée par le mode (modalité la plus fréquente)
Remarques importantes :
parmi les membres de la classe. I La représentation dans l’espace réduit est utilisée comme représentation
Remarques importantes : euclidienne des données. Dans le cas des données qualitatives, l’ACM
I La mesure de proximité par défaut est basée sur le “simple matching permet d’avoir une représetation continue des données.
distance” : pour deux individus, on compte le nombre de variables dont I Les méthodes factorielles reposent sur des critères intertiels. C’est aussi
les modalités ne sont pas les mêmes. le cas des k-moyennes ou de la CAH de Ward. Ces méthodes sont donc
I On montre que le “vecteur des modes” est celui qui minimise les particulièrement en adéquation avec la représentation factorielle.
distances de “simple matching” avec les individus de la classe (de la I Pour éviter de fixer k, c’est la CAH de Ward qui est associée
même façon que le barycentre est le vecteur qui mimise les distances classiquement aux méthodes de réduction de dimension. Mais, en
euclidiennes avec les individus de la classe). pratique, les k-moyennes sont aussi utilisés soit pour faire face au pb de
I Complexité en O(n) (si q (nombre total de modalités) et k sont petits). complexité de le CAH, soit pour améliorer la partition à k classes
obtenue en coupant l’arbre de la CAH.
Commande kmodes [klaR].
Commande HCPC [FactoMineR].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 61 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 62 / 94

Data Mining descriptif Classification automatique Data Mining descriptif Classification automatique

Evaluation et comparaison de partitions Ressources en-ligne

Principe : évaluer la qualité du résulat d’une méthode de classification
automatique. On distingue la validation interne de la validation
externe. Dans ce dernier cas, on dispose de la vérité terrain.
La classification automatique est une sous-discipline majeure de la
Remarques importantes :
I La validation interne est basée sur des mesures caractérisant fouille de données.
l’homogénéité des classes obtenues, en analysant les distances entre les Concernant R, voici quelques pointeurs :
membres d’une même classe ou entre les membres de classes distinctes. I https://cran.r-project.org/web/views/Cluster.html
On utilisera typiquement la variance intra-classe et la variance I http://www.statmethods.net/advstats/cluster.html
inter-classe mais d’autres indices existent comme la valeur moyenne I http://www.rdatamining.com/docs/data-clustering-with-r
de la silhouette. I https://www.stat.berkeley.edu/∼s133/Cluster2a.html
I La validation externe confronte la vraie partition à celle obtenue par I https://rstudio-pubs-static.s3.amazonaws.com/
une méthode. Dans ce cas, les critères de validation sont des mesures 33876 1d7794d9a86647ca90c4f182df93f0e8.html
de similarité ou d’association entre deux partitions. L’indice corrigé de I https://www.r-bloggers.com/search/clustering/
Rand est un critère typique mais d’autres mesures existent.
I Les mesures de validation externe peuvent être aussi utilisées pour
comparer les partitions obtenues par deux méthodes différentes.
Commande cluster.stats [fpc].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 63 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 64 / 94
Data Mining descriptif Règles d’associations Data Mining descriptif Règles d’associations

Règles d’associations Quelques définitions

Principe : on cherche des règles du type si conditions alors résultats Une règle est de type conditions → résultats. On écrit également
qui soient vraies pour au moins Y% des cas et qui se rencontrent antécédent → conséquent.
globalement pour au moins X% des individus de la base. Y% est Exemple des tickets de caisse : Si “couche” ∧ “samedi” → “bière”.
appelé indice de confiance et X% indice de support. Les conditions sont une conjonction de type :
Remarques importantes :
conditions=(V 1 = a) ∧ (V 2 = b) ∧ (V 3 = c)
I L’indice de support est formellement :
Chaque élément est appelé item.
P(conditions ∧ résultats)
Le résultat est un unique item (et non pas une conjonction d’items)
I On cherche des associations entre l’observation d’une conjonction de qui ne fait pas partie des conditions.
modalités d’un ensemble de variables et l’observation d’une modalité Les indices de support et de confiance permettent de sélectionner des
d’une autre variable.
règles pouvant être intéressantes. En pratique, il faut compléter ces
I L’indice de confiance est formellement :
critères par des mesures dites d’intérêt. Une mesure classique est le
P(conditions ∧ résultats)
= P(résultats|conditions) lift défini formellement comme suit :
P(conditions)
P(conditions ∧ résultats)
I Cette tâche s’applique sur des données qualitatives. Il faut donc
discrétiser les variables quantitatives si l’on souhaite les utiliser.
P(conditions)P(résultats)
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 65 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 66 / 94

Data Mining descriptif Règles d’associations Data Mining prédictif

L’algorithme Apriori Rappel du Sommaire

Principe : algorithme basé sur le support et la confiance. Recherche
dans un premier temps de sous-ensembles d’items ayant un support
suppérieur à un seuil X. Puis, il décompose chacun des sous-ensemble
d’items en paires (conditions,Résultat) de sorte à ce que l’indice de
confiance soit supérieur à un seuil Y. 4 Data Mining prédictif
Remarques importantes : Régression
I Première étape : on exclut tous les sous-ensembles d’items peu Classement
fréquents. Si un sous-ensemble de taille p est fréquent alors un Arbres de decision et fôrets aléatoires
sous-ensemble de taille p − 1 de ce sous-ensemble est également
fréquent. On n’a besoin que d’une seule passe sur les individus.
I Deuxième étape : soit un sous-ensemble fréquent de taille p, il existe
2p−1 − 1 règles possibles conditions → Résultat. Apriori permet
d’identifier rapidement les règles dépassant un seuil de confiance.
I Malgré cela, il exite en pratique bcp de règles peu intéressantes et il
faut donc d’une part imposer un seuil de confiance très fort (>75%) et
plus fort que le seuil de support (règles rares) ; d’autre part continuer à
filtrer les règles par d’autres mesures d’intérêt.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 67 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 68 / 94
Data Mining prédictif Data Mining prédictif Régression

Analyse prédictive Régression - Nature des variables explicatives

Nous disposions d’une table de données avec n individus et p
variables que l’on notera x1 , . . . , xp . Nous disposons de plus d’une La variable à expliquer y est quantitative.
variable cible notée y. Les variables explicatives x1 , . . . , xp peuvent être de plusieurs natures
L’objectif est de modéliser y en fonction de x1 , . . . , xp dans le but également :
ultime de faire des prédictions. Contrairement à l’analyse descriptive I x1 , . . . , xp sont toutes quantitatives : régression linéaire multiple,
où il n’y a pas de variable d’intérêt, on parle ici d’apprentissage I x1 , . . . , xp sont toutes qualitatives : analyse de la variance (à plusieurs
supervisé car c’est la variable cible y qui nous intéresse en particulier. facteurs),
I x1 , . . . , xp forment un mélange de var. quanti. et quali. : analyse de la
La variable y peut être typiquement soit quantitative continue, soit covariance.
qualitative nominale (discrète). Dans le 1er cas, on a un problème de
On se restreint aux problèmes de régression linéaire multiple et on
régression tandis que le 2ème cas est un problème de classement.
(re)voit les moindres carrés ordinaires, la régression sur composantes
Pour la régression, le modèle linéaire est l’approche la plus fréquente :
principales et les moindres carrés partiels.
on suppose la relation y = a0 + a1 x1 + . . . + ap xp + . Il existe en
revanche plusieurs façons d’inférer les paramètres {a0 , a1 , . . . , ap }. D’autres techniques existent comme la régression pénalisée (ridge,
lasso, elasticnet), les machines à vecteurs supports (svm). . .
Pour le classement, il existe plusieurs modèles qui sont inspirés de la
statistique mais également de l’intelligence artificielle.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 69 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 70 / 94

Data Mining prédictif Régression Data Mining prédictif Régression

Régression par moindres carrés ordinaires MCO Régression sur composantes principales (PCR)
On se restreint au cas où x1 , . . . , xp sont toutes quantitatives. Principe : lorsque les variables x1 , . . . , xp ne sont pas linéairement
Principe : On suppose la relation linéaire suivante indépendantes alors la méthode des MCO n’est pas identifiable. Une
y = a0 + a1 x1 + . . . + p
Panp x 2+ et pour inférer les paramètres on approche consiste à réduire l’espace de description et d’appliquer les
cherche à minimiser i=1 i (somme des carrés des résidus). MCO dans cet espace. La méthode classique consiste à faire une ACP
Remarques importantes : et de faire la régression sur les premières composantes principales.
I Si on fait de plus l’hyopothèse que i sont i.i.d. selon N (0, σ 2 ) alors on Remarques importantes :
parle de modèle linéaire gaussien. Dans ce cas, l’estimateur du I En effet, on sait que les axes principaux sont mutuellement
maximum de vraisemblance (MV) est identique à l’estimateur des
orthogonaux et il n’y a donc plus de problèmes de colinéarité.
moindres carrés ordinaires. On peut alors compléter l’estimation I Comme en ACP, on n’utilise pas ici toutes les composantes principales.
ponctuelle par des intervalles de confiance et des tests de significativité
On profite donc ici du principe de sélection d’information propre aux
(tests de Student, Fisher, . . . ).
méthodes de réduction de dimension. En théorie, la régression PCR est
I Attention ! Pour que les méthodes de statistiques inférentielles soient
donc moins sensible aux données aberrantes.
valides, il faut vérifier que les hypothèses de gaussianité, I Même si on régresse sur des composantes principales sachant qu’elles
d’indépendance et d’homoscédasticité soient vérifiées.
sont des combinaisons linéaires des variables initiales, on peut toujours
I Le théorème de Gauss-Markov nous dit que l’estimateur du MV est
se ramener à une expression du modèle en fonction de ces dernières.
celui de variance minimale parmi les estimateurs linéaires sans biais.
Commande lm. Commande pcr [pls].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 71 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 72 / 94
Data Mining prédictif Régression Data Mining prédictif Régression

Régression par moindres carrés partiels (PLS) Sélection de modèles

Principe : la méthode PLS est aussi une régression sur des Il existe plusieurs méthodes/modèles pour résoudre une tâche de DM.
composantes (càd des variables synthétiques). Mais contrairement à Etant donné une étude de cas, comment choisir un modèle ?
la régression PCR, la méthode PLS détermine des composantes qui Approche “axiomatique” :
privilégient les variables explicatives fortement corrélées à la variable à I Chaque modèle repose sur des hypothèses.
expliquer. I Une bonne maı̂trise de ces hypothèses et des données permet de choisir
Remarques importantes : un sous-ensemble approprié de méthodes.
I Les composantes PLS sont déterminées itérativement. A chaque étape Approche empirique :
k, on cherche tk , la combinaison linéaire de la partie résiduelle des I On teste plusieurs méthodes (sans faire trop attention à leurs
variables explicatives la plus corrélée à yk , la partie résiduelle de la fondements) sur les données de l’étude.
variable à expliquer. I On choisit le modèle donnant les meilleurs résultats.
I On fait ensuite une régression linéaire simple par MCO de yk sur tk . On attend d’un modèle qu’il fasse de bonnes prédictions sur des
I La partie résiduelle est la part des données non encore expliquées. C’est données non observées !
la projection des variables sur l’espace engendré par les résidus k .
D’autres critères de sélection existent comme la possibilité
I On montre que les composantes PLS, t1 , . . . , tm sont des combinaisons
linéaires des variables initiales et qu’elles sont orthogonales entre elles d’interpréter un modèle par opposition aux méthodes “boı̂tes noires”.
(similairement à la méthode PCR). Dans ce cous, nous faisons de la pratique et utiliserons donc
Commande pls [pls]. l’approche empirique.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 73 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 74 / 94

Data Mining prédictif Régression Data Mining prédictif Régression

Protocol expérimental Arbitrage biais-variance

Sous-apprentissage : le modèle repose sur des hypothèses trop
restreintes (modèle trop simpliste) et on est sûr d’avoir une erreur
On dispose d’un jeu de données annotées O avec n individus. d’entraı̂nement et en généralisation forte.
On découpe O en deux sous-ensembles disjoints O = E ∪ T où : Sur-apprentissage : le modèle repose sur des hypothèses trop larges
I E : ensemble d’entraı̂nement ou d’apprentissage, (modèle trop complexe), on obtient une erreur d’entraı̂nement très
I T : ensemble de test. faible mais une erreur en généralisation très forte.
On infère les paramètres du modèle à partir des données E. Modèle trop simpliste : si les données d’entraı̂nement changent, les
On teste le modèle estimé sur les données non observées T. estimations du modèle changent peu (faible variance) mais l’erreur
On distingue deux types d’erreur : d’entraı̂nement est élevée (fort biais). L’erreur en généralisation est
I l’erreur du modèle estimé sur E est l’erreur d’entraı̂nement, forte malgré une faible variance en raison du fort biais.
I l’erreur du modèle estimé sur T est l’erreur en généralisation. Modèle trop complexe : si les données d’entraı̂nement changent, les
Attention ! En DM, c’est l’erreur en généralisation qu’il est important estimations du modèle changent beaucoup (forte variance) mais
de minimiser ! l’erreur d’entraı̂nement est très faible (faible biais). Cependant,
l’erreur en généralisation peut être forte en raison de la forte variance.
Le choix d’un bon modèle réside en un bon équilibre entre le biais et
la variance !
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 75 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 76 / 94
Data Mining prédictif Régression Data Mining prédictif Régression

Arbitrage biais-variance Procédure de validation croisée

Rappel : si on change les données d’entraı̂nement, on change les

Illustration de l’arbitrage biais-variance : estimations du modèle et donc les performances de celui-ci.
Principe : découper le jeu de données en k sous-ensembles de taille
identique. On apprend sur l’union de k − 1 sous-ensemble et on teste
Erreur de prédiction
sur le sous-ensemble restant. On procède ainsi k fois (l’ensemble de
test change à chaque itération). On obtient ainsi k estimations de la
Données de test performance du modèle. On moyenne pour avoir une estimation plus
ou de validation robuste de la performance.
Plus formellement :
I Une k validation croisée signifie que l’on a k paires (Ej , Tj )j=1,...,k .
Données d’entraı̂nement I Pour chaque j = 1, . . . , k, on apprend sur Ej et on teste sur Tj .
I Chaque paire j nous donne une estimation d’une mesure d’erreur ou de
performance. On aboutit donc à k estimations distinctes. La moyenne
Complexité du modèle est une estimation plus robuste que celle obtenue par chaque paire j.
I Si k = n on parle de “leave one out cross validation” (LOOCV).

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 77 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 78 / 94

Data Mining prédictif Régression Data Mining prédictif Régression

Procédure de validation croisée (suite) Mesures de performances

Dans le cas de la régression, on utilise classiquement les mesures
Illustration d’une validation croisée à 4 échantillons. d’erreur suivantes pour évaluer un modèle de prédiction f :
Ensemble des données annotées I La Moyenne des carrés des résidus (“Mean Squared Error”) :
n
1X
Découpage aléatoire en 4 sous-ensembles mse(f ) = (yi − f (xi ))2
n
i=1

1ère paire (en rouge T, le reste E)

I La racine carrée de la moyenne des carrés des résidus (“Root Mean
Squared Error”) :
v
2ème paire u n
u1 X
rmse(f ) = t (yi − f (xi ))2
n
i=1
3ème paire
I La moyenne des résidus en valeurs absolues (“Mean Absolute Error”) :
4ème paire 1X
n
mae(f ) = |yi − f (xi )|
n
i=1

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 79 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 80 / 94
Data Mining prédictif Classement Data Mining prédictif Classement

Classement - Nature des variables explicatives Analyse linéaire discriminante (LDA)

Principe : les données sont issues d’un mélange de lois normales et
La variable à expliquer y est cette fois-ci qualitative. On supposera chaque classe possède un vecteur moyen distinct. Formellement, étant
dans la suite que les mesures dans y peuvent prendre q différentes donné une classe Ck on suppose que x|Ck ∼ N (µk , Σ) où µ est le
valeurs : {C1 , . . . , Ck , . . . , Cq }. vecteur moyen et Σ la matrice de variance-covariance. On cherche
Les variables explicatives x1 , . . . , xp peuvent être de plusieurs natures alors à estimer Σ et pour chaque classe Ck , le vecteur µk . Puis, on
également : donne un score et une prédiction à un point x quelconque à l’aide de
I x1 , . . . , xp sont toutes quantitatives : analyse discriminante (linéaire et P(Ck |x) que l’on calcule grâce à la règle de Bayes.
quadratique). Remarques importantes :
I x1 , . . . , xp forment un mélange de var. quanti. et quali. : régression I Le cas linéaire considère que toute classe Ck possède la même matrice
logistique (binomiale ou multinomiale). de variance-covariance Σ : hypothèse d’homoscédasticité.
Nous verrons essentiellement les méthodes mentionnées ci-dessus. I On aboutit alors à une fonction de score qui est linéaire en x appelée
également score de Fisher.
Mais beaucoup d’autres méthodes existent ! comme les machines à I La méthode peut être vue telle une technique de réduction de
vecteurs supports (svm), les réseaux de neuronnes, les réseaux dimension où l’on cherche simultanément à maximiser l’inertie
bayésiens. . . inter-classe et minimiser l’inertie intra-classe.
Commande lda [MASS].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 81 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 82 / 94

Data Mining prédictif Classement Data Mining prédictif Classement

Analyse quadratique discriminante (QDA) Régression logistique

Principe : pour chaque classe Ck on modélise directement la
Principe : c’est le même cadre formel que précédemment càd pour
probabilité P(Ck |x) par une forme paramétrique. On suppose ensuite
chaque classe Ck on suppose que x|Ck ∼ N (µk , Σk ). Mais ici toute
une loi de distribution pour l’observation du nb d’occurrence des
classe a un vecteur moyen et une matrice de variance-covariance
classes. Les paramètres sont obtenus par maximum de vraissemblance.
distincte Σk . L’abandon de l’hypothèse d’homoscédasticité conduit à
Précisément, dans la régression logistique on a :
une fonction de score qui est quadratique en x. I La 1ère hypothèse concerne la forme paramétrique de P(Ck |x) :
Remarques :
exp(ak0 + a>k x)
I Pour LDA, la fonction de score est linéaire en x ce qui veut dire que P(Ck |x) = Pq
l=1 exp(al0 + a>
l x)
dans l’espace de description, on peut tracer des frontières linéaires
(hyperplans) séparant les classes Ck entre elles. I Ceci est équivalent à supposer q − 1 fonctions logits des odds-ratio :
I Pour QDA, la fonction de score est quadratique en x ce qui veut dire P(Ck |x)
que les frontières séparant les classes dans l’espace de description sont log = ak0 + a>
k x
P(Cq |x)
des courbes.
I La 2ème hypothèse concerne la distribution de probabilité du nb
I QDA est plus flexible que LDA mais demande plus de calculs car il y a
d’occurrences des classes. La régression logistique suppose une loi
q matrices Σk à estimer.
multinomiale qui généralise au cas q > 2 la loi binomiale.
Commande qda [MASS]. Commande multinom [nnet] 25
25. La regression logistique multinomiale est un cas simple de réseau de neuronnes :
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 83 / 94
c’estJ. qAh-Pine (Univ-Lyon 2)
perceptrons en parallèle. Data Mining L3 CESTAT 2017/2018 84 / 94
Data Mining prédictif Classement Data Mining prédictif Classement

Rappels sur la sélection de modèles Mesures de performance

Ce qui a été évoqué précédemment aux slides concernant les Principe : la variable cible y étant discrète, les mesures d’erreur
problèmes de régression reste valable pour les problèmes de reposent principalement sur la matrice confusion qui est une table de
classement : contingence croisant la vérité terrain et les prédictions du modèle.
I l’arbitrage biais-variance et les problèmes de sous et sur-apprentissage,
Matrice de confusion dans le cas q = 2 :
I l’importance de l’erreur en généralisation,
I le protocol expérimental, l’estimation plus robuste par validation fˆ(x)
croisée de l’erreur en généralisation, Total
C1 C2
I les approches “axiomatique” et empirique pour la sélection de modèle C1 a b a+b
et l’accent mis dans ce cours sur l’approche empirique. y
C2 c d c +d
Ce qui est spécifique aux problèmes de classement : Total a+c b+d a+b+c +d =n
I les mesures d’erreur/de performance pour comparer les modèles,
I dans le cas de deux classes (q = 2), la décision de prédiction est prise I a =Nb d’objets C1 correctement catégorisés
en comparant un score et un seuil (“si score de x est supérieur à un I b =Nb d’objets C1 catégorisés en C2
seuil θ alors je mets dans la classe C1 ”). Dans ce cas, on peut utiliser un I c =Nb d’objets C2 catégorisés en C1
outil supplémentaire pour l’évaluation des modèles appelé courbe ROC. I d =Nb d’objets C2 correctement catégorisés

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 85 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 86 / 94

Data Mining prédictif Classement Data Mining prédictif Classement

Mesures de performance (suite) Courbe ROC

A partir de la matrice de confusion on définit : Principe : dans les problèmes de classement binaire (q = 2), la
I Taux d’erreur (“Error rate” ou “Misclassification Rate”) : plupart des méthodes prennent la décision d’affecter dans C1 au
b+c travers d’une fonction de score g . On a f (x) = C1 ssi g (x) > θ où θ
err (fˆ) = est un seuil. Ce seuil est donné par défaut mais si on le change alors
n
les performances du modèle varient également. La courbe ROC
I Taux de réussite ou de reconnaissance (“Accuracy Rate”) :
(“Receiver Operating Characteristics”) permet d’étudier la sensibilité
a+d d’un modèle vis à vis de ce seuil.
acc(fˆ) = = 1 − err (fˆ)
n Quelques précisions :
I La courbe est tracée dans un plan ou chaque axe correspond à deux
I Taux de vrais positifs 26 (“True positive rate” ou “Sensitivity”) :
mesures de performance. Typiquement, fpr en abscisse et tpr en
a ordonnée. Le point (0, 1) correspond au modèle/seuil optimal.
tp(fˆ) =
a+b I La 1ère bissectrice du plan correspond à un modèle de prédiction
I Taux de faux positifs (“False positive rate” ou “False alarm rate”) : aléatoire. Il faut donc avoir une courbe au-dessus de la 1ère bissectrice.
I Si on a deux modèles, on peut tracer deux courbes ROC et celle qui est
c
fp(fˆ) = au-dessus de l’autres correspond au meilleur modèle.
c +d I L’aire en dessous de la courbe ROC (auc) est une valeur synthétisant la
26. On suppose ici que C1 est la classe positive. performance d’un modèle. 1 correspond au modèle optimal.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 87 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 88 / 94
Data Mining prédictif Classement Data Mining prédictif Arbres de decision et fôrets aléatoires

Courbe ROC (suite) Arbres de décision

Illustration de la courbe ROC : Principe : la méthode consiste à découper l’espace de description (càd
celui engendré par les variables explicatives) en hyper-rectangles.
Chaque hyper-rectangle est défini comme la conjonction de plusieurs
1.0

règles simples chacune basée sur une variable explicative. A chaque

hyper-rectangle on associe une valeur de la variable cible.
0.8

X = R+2 X
y
True positive rate
0.6

o o xx x x ≤ x0 x > x0
y1 oo o x x
0.4

x x y > y1 y ≤ y1x
y2 x x x
0.2

o x
x o y ≤y y > y2
2
0.0

x0
0.0 0.2 0.4 0.6 0.8 1.0
False positive rate o x
Commande rpart [rpart].
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 89 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 90 / 94

Data Mining prédictif Arbres de decision et fôrets aléatoires Data Mining prédictif Arbres de decision et fôrets aléatoires

Arbres de décision (suite) Bootstrap et Bagging

Remarques importantes :
I A chaque étape une variable est choisie afin de séparer en deux un Principe :
hyper-rectangle existant. Cette séparation est simplement modélisée par I Bootstrap : c’est une méthode de ré-échantillonnage avec remise
une règle. L’ensemble de ces règles est représenté par un arbre binaire.
permettant de disposer de plusieurs échantillons afin d’avoir plusieurs
I La méthode permet de traiter les problèmes de régression et de
estimations de modèles et d’erreurs en généralisation.
classement (binaire ou multi-classe). De plus, elle permet de tenir I Bagging (“bootstrap + averaging”) : c’est un paradigme de méthode
compte des données mixtes.
d’ensemble en apprentissage supervisé qui repose sur le bootstrap.
I En régression, les hyper-rectangles sont définis de sorte à minimiser la
L’idée est d’estimer une même méthode sur plusieurs échantillons
somme des carrés des résidus. La valeur prédite associée à un
bootstrap et de faire une prédiction basée sur un consensus de ces
hyper-rectangle est la moyenne des y des individus de l’hyper-rectangle.
différents modèles estimés qui représentent autant d’opinions distinctes.
I En classement, les hyper-rectangles sont définis afin à minimiser
l’impureté qui est en général mesurer par l’entropie. La valeur prédite Remarques importantes :
associée à un hyper-rectangle est la classe majoritaire des y des I Le consensus pour les pbs de régression est en général une moyenne
individus de l’hyper-rectangle. tandis que pour les pbs de classement c’est le vote majoritaire.
I La méthode est sujette au sur-apprentissage et pour y remédier, on I Le bagging est souvent appliqué avec les arbres de décision car il permet
emploie des méthodes d’élagage (on enlève des branches de l’arbre). de réduire la variance de ces derniers (pb de sur-apprentissage des ad).
I Un avantage certain des arbres de décision est qu’il fournit un modèle
interprétable sous forme de règles “si ... alors ...”.
J. Ah-Pine (Univ-Lyon 2)
X = R+2 Data Mining
X L3 CESTAT 2017/2018 91 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 92 / 94
Data Mining prédictif Arbres de decision et fôrets aléatoires Data Mining prédictif Arbres de decision et fôrets aléatoires

Forêts aléatoires Forêts aléatoires (suite)

Principe : il s’agit du bagging appliqué avec les arbres décisionnels et
auquel on ajoute un échantillonnage sur les variables explicatives. En
effet, lorsqu’un arbre est appris à partir d’un échantillon bootstrap, à
chaque itération, on choisit la variable de séparation dans un
sous-ensemble des variables explicatives qui est pris aléatoirement.
Remarques importantes :
I Choisir aléatoirement un sous-espace de représentation à chaque étape Commande rf [randomForest].
permet de rendre davantage indépendants les échantillons bootstrap
(qui ne le sont pas à la base en raison de le remise). En théorie, cela
permet de réduire la variance globale du modèle. En pratique, les forêts
aléatoires donnent souvent d’excellents résultats.
I La méthode ne nécessite pas de validation croisée ! Pour chaque
échantillon bootstrap, on peut tester le modèle sur les individus
n’appartenant pas à l’échantillonet mesurer l’erreur. On moyenne
ensuite toutes ces mesures, on parle alors de “out of bag error”.
I Les forêts aléatoires sont des “boı̂tes noires” mais, il est possible
d’évaluer l’importance de chaque variable dans le modèle estimé.
J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 93 / 94 J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 94 / 94

Vous aimerez peut-être aussi

Chap1 DM
Pas encore d'évaluation
Chap1 DM
68 pages
BI Datamining Presentation
Pas encore d'évaluation
BI Datamining Presentation
43 pages
Cours Data Mining et Machine Learning ENSIAS
Pas encore d'évaluation
Cours Data Mining et Machine Learning ENSIAS
89 pages
Chap.01 Intro 18-19 1
Pas encore d'évaluation
Chap.01 Intro 18-19 1
17 pages
DM Ch1
Pas encore d'évaluation
DM Ch1
11 pages
Intro Data Minig2
Pas encore d'évaluation
Intro Data Minig2
25 pages
01 Introduction DM
Pas encore d'évaluation
01 Introduction DM
26 pages
Introduction au Data Mining et ses enjeux
Pas encore d'évaluation
Introduction au Data Mining et ses enjeux
10 pages
Document
Pas encore d'évaluation
Document
35 pages
DataMining 1 2
Pas encore d'évaluation
DataMining 1 2
80 pages
Chapitre 1 DM
Pas encore d'évaluation
Chapitre 1 DM
73 pages
Cours-Data-Mining Master BIBDA 2017 2018
Pas encore d'évaluation
Cours-Data-Mining Master BIBDA 2017 2018
164 pages
Datamining Cours 01
Pas encore d'évaluation
Datamining Cours 01
19 pages
01introduction Au Data Mining
Pas encore d'évaluation
01introduction Au Data Mining
9 pages
Cours DM Afef Kacem Math Séance1
Pas encore d'évaluation
Cours DM Afef Kacem Math Séance1
57 pages
Cours-DM Chap1
Pas encore d'évaluation
Cours-DM Chap1
16 pages
Partie 2
Pas encore d'évaluation
Partie 2
69 pages
Exploration et Applications du Data Mining
Pas encore d'évaluation
Exploration et Applications du Data Mining
38 pages
Cours
Pas encore d'évaluation
Cours
43 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
6 pages
DATA Mining 2 2 2024
Pas encore d'évaluation
DATA Mining 2 2 2024
16 pages
Cours DM Afef Kacem 1 427
Pas encore d'évaluation
Cours DM Afef Kacem 1 427
214 pages
DataMining CIPMA SAV2 SupportDeCours
Pas encore d'évaluation
DataMining CIPMA SAV2 SupportDeCours
73 pages
Cours de Data Mining 2024-2025
Pas encore d'évaluation
Cours de Data Mining 2024-2025
115 pages
Concepts de Base
Pas encore d'évaluation
Concepts de Base
30 pages
Chap1-Introduction Au DataMining Sahbi
Pas encore d'évaluation
Chap1-Introduction Au DataMining Sahbi
47 pages
Chap1 - Introduction Au Data Mining
Pas encore d'évaluation
Chap1 - Introduction Au Data Mining
32 pages
Chapitre6 Intelligence Artificielle
Pas encore d'évaluation
Chapitre6 Intelligence Artificielle
32 pages
Introd M Beamer
Pas encore d'évaluation
Introd M Beamer
28 pages
Chap0 - Préambule Au ML
Pas encore d'évaluation
Chap0 - Préambule Au ML
92 pages
Data Mining Final
100% (1)
Data Mining Final
192 pages
Cours Machine Learning
Pas encore d'évaluation
Cours Machine Learning
204 pages
Introduction au Data Mining
100% (1)
Introduction au Data Mining
29 pages
Chapitre 1-1
Pas encore d'évaluation
Chapitre 1-1
107 pages
Data Mining
Pas encore d'évaluation
Data Mining
91 pages
1 Data Mining
Pas encore d'évaluation
1 Data Mining
74 pages
Cours DM-v14 09 2023
Pas encore d'évaluation
Cours DM-v14 09 2023
30 pages
Data Mining
Pas encore d'évaluation
Data Mining
36 pages
Cours Datamining P1
Pas encore d'évaluation
Cours Datamining P1
18 pages
Introduction au Data Mining et Concepts de Base
Pas encore d'évaluation
Introduction au Data Mining et Concepts de Base
8 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
31 pages
Chap1Regles Association
Pas encore d'évaluation
Chap1Regles Association
88 pages
Data Mining
Pas encore d'évaluation
Data Mining
29 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
254 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
33 pages
Cours de Fouille de Données Avancée
Pas encore d'évaluation
Cours de Fouille de Données Avancée
96 pages
Cours Data Mining: Objectifs et Méthodes
Pas encore d'évaluation
Cours Data Mining: Objectifs et Méthodes
106 pages
Étudiants en Ingénierie et Data Mining
Pas encore d'évaluation
Étudiants en Ingénierie et Data Mining
25 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
30 pages
Data Mining
Pas encore d'évaluation
Data Mining
25 pages
Data Mining (Partie 1)
Pas encore d'évaluation
Data Mining (Partie 1)
56 pages
Data Mining
Pas encore d'évaluation
Data Mining
3 pages
Chap 00 - Introdution Generale
Pas encore d'évaluation
Chap 00 - Introdution Generale
11 pages
Cours Datamining 3ING 22-23
Pas encore d'évaluation
Cours Datamining 3ING 22-23
185 pages
Exploration de Données - Data Mining
0% (1)
Exploration de Données - Data Mining
20 pages
Cours Chapitre 1
Pas encore d'évaluation
Cours Chapitre 1
6 pages
Data Mining
Pas encore d'évaluation
Data Mining
34 pages
21 Network Programmability and Automation
Pas encore d'évaluation
21 Network Programmability and Automation
34 pages
Architecture et Composants IoT
Pas encore d'évaluation
Architecture et Composants IoT
45 pages
Resume Theorique m209 v1 0909 2
Pas encore d'évaluation
Resume Theorique m209 v1 0909 2
507 pages
Offres Forumstage Aubiere181123
Pas encore d'évaluation
Offres Forumstage Aubiere181123
17 pages
Test Informatique Terminale A4 2024
Pas encore d'évaluation
Test Informatique Terminale A4 2024
3 pages
Chapitre 3 Cas D Utilisation
Pas encore d'évaluation
Chapitre 3 Cas D Utilisation
15 pages
Guide Essentiel Laravel: Cours et TPs
Pas encore d'évaluation
Guide Essentiel Laravel: Cours et TPs
105 pages
Memoire 636953429499006359
100% (1)
Memoire 636953429499006359
105 pages
Chapitre 3 Estimation Duree Et Couts Du Projet
Pas encore d'évaluation
Chapitre 3 Estimation Duree Et Couts Du Projet
5 pages
LDAP (2) - Copie
Pas encore d'évaluation
LDAP (2) - Copie
13 pages
Optimisation du SI d'ASX : Scénarios et Défis
Pas encore d'évaluation
Optimisation du SI d'ASX : Scénarios et Défis
3 pages
Pfe Latest
Pas encore d'évaluation
Pfe Latest
59 pages
Maîtriser l'Archivage en Entreprise
Pas encore d'évaluation
Maîtriser l'Archivage en Entreprise
16 pages
Vulnérabilité Dans Les Produits Fortinet - CERT-FR
Pas encore d'évaluation
Vulnérabilité Dans Les Produits Fortinet - CERT-FR
4 pages
Sécurité Informatique : Les Pare-feux
Pas encore d'évaluation
Sécurité Informatique : Les Pare-feux
43 pages
Cours Bases de Données 2018 2019
100% (1)
Cours Bases de Données 2018 2019
41 pages
Gestion de Fichiers Linux : Concepts Clés
Pas encore d'évaluation
Gestion de Fichiers Linux : Concepts Clés
34 pages
Evaluation2 2023-2024 2ndea
Pas encore d'évaluation
Evaluation2 2023-2024 2ndea
2 pages
PFC l3
Pas encore d'évaluation
PFC l3
30 pages
SIRH Et GRH PDF
100% (2)
SIRH Et GRH PDF
194 pages
Architectures Logicielles À Objets: Master 1 I2A / DVL - Année 2020-2021
100% (1)
Architectures Logicielles À Objets: Master 1 I2A / DVL - Année 2020-2021
2 pages
Final A2021 C
Pas encore d'évaluation
Final A2021 C
7 pages
Epreuve Programmation CPP
Pas encore d'évaluation
Epreuve Programmation CPP
2 pages
Examen2 h16 Solution
Pas encore d'évaluation
Examen2 h16 Solution
14 pages
Webservices Soap Et Rest
Pas encore d'évaluation
Webservices Soap Et Rest
592 pages
Sécurisation réseau entreprise avancée
Pas encore d'évaluation
Sécurisation réseau entreprise avancée
2 pages
Programmation Orientée Objets en JAVA
Pas encore d'évaluation
Programmation Orientée Objets en JAVA
176 pages
Outils de Pilotage Les Meilleurs Tableaux de Bord Pour Votre Entreprise
Pas encore d'évaluation
Outils de Pilotage Les Meilleurs Tableaux de Bord Pour Votre Entreprise
6 pages
J2EE Web Tier
Pas encore d'évaluation
J2EE Web Tier
126 pages
Administration de Bases de Données
Pas encore d'évaluation
Administration de Bases de Données
138 pages