Analyse de données
Cours présenté par
Mme Hamdad Leila.
OBJECTIF
• L’utilisation de l’analyse de données s’étend à des
domaines très vastes, dont les reconnaissances de
formes, prédiction, marketing, biostatistique………
• On présentera dans ce cours les techniques de
descriptions multidimensionnelles, de modélisation
statistique et on introduira la théorie de l’apprentissage
utilisées en data mining dans des champs d’applications
très divers : industriels, marketing…
• Le but est de ressortir l’information pertinente
contenue dans une masse importante de données.
DATA MINING
• Le Data Mining: Processus d’extraction de
connaissances cachées, non connues, mais
utiles à partir d’une grosse masse de données.
Intersection
- Base de données
- Statistiques
- Intelligence Artificielle
ECD ou KDD
Sélection de
données
OU
• Sélectionner des données à étudier.
• Prétraitement des données: suppression
d’informations bruitées ou superflues.
• Projection et réduction de données.
• Analyser, construire les modèles et les
hypothèses.
• Interpréter les résultats pour la découverte de
connaissances.
Taches du Data Mining
Tâche
Descriptive
Visualisation
Méthodes factorielles
Classification non supervisée
Recherche de règles
d’associations
Prédictive
Classification supervisée
Régression
Pré-requis
• Statistiques et probabilités
• Algèbre linéaire
• Calcul numérique.
Contenu
• Analyse en composantes principales
• Analyse des correspondances
• Analyse des correspondances multiples
Contenu
• Analyse discriminante
• Classification
Contenu
• Régression linéaire simple et multiple.
• Séries chronologiques
• Lissages exponentiels simple et double
Logiciels
• Ce Cours exige l’implémentation des
méthodes pour bien les comprendre sous les
logiciels Matlab ou R( logiciel libre).
• R: Logiciel de statistique crée par Ross Ihaka &
Robert Gentleman en 1988.
• Langage informatique et un environnement de
travail
Commandes exécutées grâce à des
instructions codées dans un langage
relativement simple,
Résultats affichés sous forme de texte,
Graphiques visualisés directement dans une
fenêtre qui leur est propre.
• R manipule Les données, ` trace des graphiques et fait des
analyses statistiques sur ces données.
• R est un logiciel gratuit et open source téléchargeable à
partir du site internet du Comprehensive R Archive
Network (CRAN) ([Link] orgCRAN).
• R Fonctionne sur tout les systèmes d'exploitation
(Windows, Macintoch, Linux).
• R un logiciel en rapide et constante évolution car tout le
monde peut l'améliorer en y intégrant de nouvelles
méthodes.
Références
• Duda, Hart and Stork, « Pattern classification »,
2nd edition, Wiley and sons, 2001.
• Hastie, Tibshirani & Friedman ”The elements of
statistical learning. Data mining, inference and
prediction. Springer, 2001.
• Lebart, Morineau et Piron , « Statistique
exploratoire multidimensionnelle » 2006.
• Ressources en ligne : [Link]
[Link]/~besse/[Link].