Introduction au Data Mining
Pr. Nabila HAMDOUN
Objectif du Traitement de Données
L'ingénieur est souvent confronté à des masses
considérables de données. La plupart du temps
plusieurs variables (attributs, caractères) ont été
mesurées pour chaque observation. L'étude
individuelle de ces variables, bien qu'essentielle, ne
permet pas de retirer toute l'information désirée de
ce tableau de données.
Objectif du Traitement de Données
Les méthodes bivariables, en particulier les
diagrammes binaires (scatterplots en anglais), sont
déjà beaucoup plus riches d'informations puisqu'elles
permettent d'établir des relations entre les variables.
Les méthodes multivariables vont un peu plus loin et
cherchent les relations simultanées entre plusieurs
variables.
Objectif du Traitement de Données
Ces méthodes ne sont pas le propre des ingénieurs
Financiers; elles peuvent servir à analyser les
données de toute provenance. Elles ont été
développées tout au long du 20e siècle par des
statisticiens et des chercheurs provenant surtout des
domaines suivants: sciences sociales, psychologie,
sciences biologiques et agriculture.
Objectif du Traitement de Données
L'analyse des données vise donc essentiellement à
décrire les liens entre les variables et les
observations de notre matrice de donnée.
Plus précisément, voici une série de questions
auxquelles ces méthodes tenteront de fournir des
réponses:
Objectif du Traitement de Données
1 - Peut-on prédire le comportement d'une variable à
partir d'une ou plusieurs autres variables (problème
de régression)? Quelle est la meilleure équation de
prédiction?
Objectif du Traitement de Données
2 - Peut-on identifier, voir interpréter, des facteurs
pouvant expliquer les variations observées dans les
différentes variables (analyse factorielle)?
Objectif du Traitement de Données
3 - Peut-on filtrer de nos données l'effet dû à des
facteurs indésirables (analyse factorielle)?
Objectif du Traitement de Données
4 - Peut-on identifier les différences existant entre
divers groupes parmi nos données (analyse
discriminante)?
Comment utiliser ces différences pour prédire le
groupe auquel appartient une nouvelle observation?
Objectif du Traitement de Données
5 - Quelles sont les observations (ou les variables)
ayant des ressemblances au niveau de leur
comportement (classification automatique)?
Objectif du Traitement de Données
Ce cours vise à fournir les principaux outils
multivariables nécessaires à l'ingénieur Financier
pour sa pratique professionnelle ou pour ses études
graduées.
Introduction au Data Mining
Data-mining ≡ Fouille de données
Regroupe un ensemble de techniques et d’outils de
la Statistique, l’Informatique et la Science de
l’information
Introduction au Data Mining
A évolué vers le data science
Machine Learning, Data-Mining
Big Data (explosion des données)
Formalismes de stockage et de traitement distribués
des données (NoSQL, Hadoop, MapReduce, Spark ...)
Introduction au Data Mining
Le data-mining est un processus de découverte de
règle, relations, corrélations et/ou dépendances à
travers une grande quantité de données, grâce à des
méthodes statistiques, mathématiques et de
reconnaissances de formes.
Introduction au Data Mining
Le data-mining est un processus d’extractions
automatique d’informations predictives à partir de
grandes bases de données.
Introduction au Data Mining
Données :
Big Data : augmentation sans cesse de données
générées
Twitter : 50M de tweets /jour (=7 téraoctets)
Facebook : 10 téraoctets /jour
Youtube : 50h de vidéos uploadées /minute 2.9
million de mail /seconde
Exemples d’applications en Data Mining
E-Commerce :
Targeting
Stocker les séquences de clicks des visiteurs,
analyser les caractéristiques des acheteurs
Faire du ”targeting” lors de la visite d’un client
potentiel
Exemples d’applications en Data Mining
Détection de fraudes pour les assurances
Analyse des déclarations des assurés par un expert
afin d’identifier les cas de fraudes.
Applications de méthodes statistiques pour identifier
les déclarations fortement corrélées à la fraude.
Processus d’un Projet en Data Mining
Processus d’un Projet en Data Mining
Principales étapes
1- Collecte de données
2- Pré-traitement
3- Analyse statistique
4- Identifier le problème de DM
5- Apprendre le modèle mathématique
6- Évaluer ses capacités
Ensemble de données
Données d’un problème de DM
Les informations sont des exemples avec des
attributs On dispose généralement d’un
ensemble de N données
Ensemble de données
Attributs
Un attribut est un descripteur d’une entité. On
l’appelle également variable, ou caractéristique
Données et Métrique
Les algorithmes nécessitent une notion de
similarité dans l’espace X des données. La
similarité est traduite par la notion de distance.
Données et Métrique
Types d’apprentissage
Apprentissage supervisé
Apprentissage non-supervisé