0% ont trouvé ce document utile (0 vote)
13 vues24 pages

06 - Introduction Au DM

Le document présente une introduction au data mining, soulignant l'importance de l'analyse des données pour établir des relations entre variables. Il décrit les méthodes bivariables et multivariables, ainsi que les questions clés que ces méthodes cherchent à résoudre. Enfin, il aborde le processus d'un projet de data mining, incluant la collecte de données, l'analyse statistique et les types d'apprentissage.

Transféré par

AdilHoubbane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
13 vues24 pages

06 - Introduction Au DM

Le document présente une introduction au data mining, soulignant l'importance de l'analyse des données pour établir des relations entre variables. Il décrit les méthodes bivariables et multivariables, ainsi que les questions clés que ces méthodes cherchent à résoudre. Enfin, il aborde le processus d'un projet de data mining, incluant la collecte de données, l'analyse statistique et les types d'apprentissage.

Transféré par

AdilHoubbane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction au Data Mining

Pr. Nabila HAMDOUN


Objectif du Traitement de Données

L'ingénieur est souvent confronté à des masses


considérables de données. La plupart du temps
plusieurs variables (attributs, caractères) ont été
mesurées pour chaque observation. L'étude
individuelle de ces variables, bien qu'essentielle, ne
permet pas de retirer toute l'information désirée de
ce tableau de données.
Objectif du Traitement de Données

Les méthodes bivariables, en particulier les


diagrammes binaires (scatterplots en anglais), sont
déjà beaucoup plus riches d'informations puisqu'elles
permettent d'établir des relations entre les variables.
Les méthodes multivariables vont un peu plus loin et
cherchent les relations simultanées entre plusieurs
variables.
Objectif du Traitement de Données

Ces méthodes ne sont pas le propre des ingénieurs


Financiers; elles peuvent servir à analyser les
données de toute provenance. Elles ont été
développées tout au long du 20e siècle par des
statisticiens et des chercheurs provenant surtout des
domaines suivants: sciences sociales, psychologie,
sciences biologiques et agriculture.
Objectif du Traitement de Données

L'analyse des données vise donc essentiellement à


décrire les liens entre les variables et les
observations de notre matrice de donnée.
Plus précisément, voici une série de questions
auxquelles ces méthodes tenteront de fournir des
réponses:
Objectif du Traitement de Données

1 - Peut-on prédire le comportement d'une variable à


partir d'une ou plusieurs autres variables (problème
de régression)? Quelle est la meilleure équation de
prédiction?
Objectif du Traitement de Données

2 - Peut-on identifier, voir interpréter, des facteurs


pouvant expliquer les variations observées dans les
différentes variables (analyse factorielle)?
Objectif du Traitement de Données

3 - Peut-on filtrer de nos données l'effet dû à des


facteurs indésirables (analyse factorielle)?
Objectif du Traitement de Données

4 - Peut-on identifier les différences existant entre


divers groupes parmi nos données (analyse
discriminante)?
Comment utiliser ces différences pour prédire le
groupe auquel appartient une nouvelle observation?
Objectif du Traitement de Données

5 - Quelles sont les observations (ou les variables)


ayant des ressemblances au niveau de leur
comportement (classification automatique)?
Objectif du Traitement de Données

Ce cours vise à fournir les principaux outils


multivariables nécessaires à l'ingénieur Financier
pour sa pratique professionnelle ou pour ses études
graduées.
Introduction au Data Mining

Data-mining ≡ Fouille de données


Regroupe un ensemble de techniques et d’outils de
la Statistique, l’Informatique et la Science de
l’information
Introduction au Data Mining

A évolué vers le data science


Machine Learning, Data-Mining
Big Data (explosion des données)
Formalismes de stockage et de traitement distribués
des données (NoSQL, Hadoop, MapReduce, Spark ...)
Introduction au Data Mining

Le data-mining est un processus de découverte de


règle, relations, corrélations et/ou dépendances à
travers une grande quantité de données, grâce à des
méthodes statistiques, mathématiques et de
reconnaissances de formes.
Introduction au Data Mining

Le data-mining est un processus d’extractions


automatique d’informations predictives à partir de
grandes bases de données.
Introduction au Data Mining

Données :
Big Data : augmentation sans cesse de données
générées
Twitter : 50M de tweets /jour (=7 téraoctets)
Facebook : 10 téraoctets /jour
Youtube : 50h de vidéos uploadées /minute 2.9
million de mail /seconde
Exemples d’applications en Data Mining

E-Commerce :

Targeting
Stocker les séquences de clicks des visiteurs,
analyser les caractéristiques des acheteurs
Faire du ”targeting” lors de la visite d’un client
potentiel
Exemples d’applications en Data Mining

Détection de fraudes pour les assurances


Analyse des déclarations des assurés par un expert
afin d’identifier les cas de fraudes.
Applications de méthodes statistiques pour identifier
les déclarations fortement corrélées à la fraude.
Processus d’un Projet en Data Mining
Processus d’un Projet en Data Mining

Principales étapes
1- Collecte de données
2- Pré-traitement
3- Analyse statistique
4- Identifier le problème de DM
5- Apprendre le modèle mathématique
6- Évaluer ses capacités
Ensemble de données

Données d’un problème de DM


Les informations sont des exemples avec des
attributs On dispose généralement d’un
ensemble de N données
Ensemble de données

Attributs
Un attribut est un descripteur d’une entité. On
l’appelle également variable, ou caractéristique
Données et Métrique

Les algorithmes nécessitent une notion de


similarité dans l’espace X des données. La
similarité est traduite par la notion de distance.
Données et Métrique

Types d’apprentissage
Apprentissage supervisé
Apprentissage non-supervisé

Vous aimerez peut-être aussi