Analyse de données 1
ANALYSE DE DONNÉES
INTRODUCTION
Analyse de données 2
PLAN
• Introduction
• Définitions ADD
• Définitions Data Mining
• Avantages AFD
• Les méthodes d’ADD
• Les Données , Types d'Attributs
• Les type de Tableaux
Analyse de données 3
Introduction
Lors de toute étude statistique, il est nécessaire
de décrire et explorer les données avant d’en tirer
de quelconques lois ou modèles prédictifs.
Dans beaucoup de situations, les données sont trop
nombreuses pour pouvoir être visualisables (nombre de
caractéristiques trop élevées)
Il est alors nécessaire d’extraire l’information pertinente
qu’elles contiennent ; Les techniques d’ADD répondent à
ce besoin.
Analyse de données 4
Introduction
L’analyse des données a pour but de fournir grâce à
l’ordinateur un outil permettant d’appréhender le contenu
de tableaux de taille importante à l’aide de
représentations accessibles par l’utilisateur
L’analyse des données rassemble un groupe de
techniques aux fondements mathématiques qui permet
d’appréhender la structure de l’information contenue dans
un espace à plusieurs dimensions
BUT = Synthétiser, structurer l'information contenue dans
des données multidimensionnelles
(n individus, p variables)
Analyse de données 5
Définition ADD
ADD = ensemble de méthodes descriptives ayant pour
objectif de résumer et visualiser l’information pertinente
contenue dans un grand tableau de données.
Dans la littérature plusieurs « point de départ »
Domaine récent dont le vocabulaire n’est pas fixé
Evolution rapide
Domaine Applicatif versus domaine de Recherche
Analyse de données 6
Data Mining - La rencontre de plusieurs disciplines
Analyse de données 7
Data Mining - Définitions
Analyse et Fouille de Données (AFD) = Data Mining
Ensemble des techniques d’exploration de données
permettant d’extraire des connaissances sous la forme de
modèles de description afin de :
Décrire le comportement actuel des données.
Et/ou Prédire le comportement futur des données.
Analyse de données 8
Data Mining – Question de vocabulaire…
On ne peut pas parler que d’Analyse de Données :
Reconnaissance des formes (pattern recognition)
Analytics
Apprentissage automatique (Machine Learning)
Fouille de données (Data Mining)
Intelligence Artificielle (IA)
Statistique
...
Domaines différents avec des intersections plus ou moins grandes :
Data Sciences (Attention à la traduction Anglais/ Français)
Analyse et Fouille des Données (AFD)
Analyse de données 9
Data Mining
The part of AI (Intelligence Artificielle ) that is
driving these developments is = Deep Learning
Analyse de données 10
Data Mining - Définitions
AFD : une démarche plus qu’une théorie
Processus ECD (extraction de connaissances à partir de données)
ou KDD (Knowledge Discovery in Databases)
Analyse de données 11
Data Mining - Pourquoi l’AFD ?
L’exploitation des données est importante car c’est :
Méthode scientifique ⇒ nécessité de savoir exploiter des données
• c’est la base de la méthode scientifique (observations →
lois/règles)
• les données (et leur exploitation) au cœur de beaucoup
d’avancés récentes
Source de revenus
• modèle économique des entreprises du web (Google, Facebook,
Amazon, ...)
• fournisse un service gratuit
• seule « valeur » : capacité à exploiter les données collectées
Nouvelle « approche de programmation »
• « rêve » de l’intelligence artificielle : l’ordinateur qui Apprend
• il y a des algorithmes que l’on ne peut pas/sait pas formaliser
Analyse de données 12
Data Mining - Pourquoi l’AFD ?
Analyse de données 13
Data Mining - Pourquoi l’AFD ?
Analyse de données 14
Data Mining - Pourquoi l’AFD ?
Analyse de données 15
Data Mining - Pourquoi l’AFD ?
Analyse de données 16
Les méthodes d’ADD
L’analyse des données est une des branches les plus vivantes
de la statistique. Ses principales méthodes se séparent en
deux groupes:
Les méthodes de classification : visant à réduire la taille
de l’ensemble des individus en formant des groupes homogènes
Les méthodes factorielles : cherchent à réduire le
nombre de variables en les résumant par un petit nombre de
composantes synthétiques en utilisant essentiellement des outils
de l’algèbre linéaire et donnant lieu à des représentations
graphiques dans lesquelles les objets à décrire se transforment en
des points sur des axes et des plans.
Analyse de données 17
Les méthodes d’ADD
Algèbre linéaire:
les données sont vues de manière abstraites comme un nuage
de points dans un espace vectoriel. On utilise :
Des matrices qui permettent de manipuler un ensemble de
variables comme un objet mathématique unique ;
Des valeurs et vecteurs propres qui permettent de décrire la
structure d'une matrice.
Des métriques : permettent de définir la distance entre deux
points de l'espace vectoriel ; on utilise aussi des produits
scalaires.
Analyse de données 18
Les méthodes 3 Grandes Familles
CAH = classification ascendante hiérarchique
Analyse de données 19
Les données ?
• Les données se présentent généralement sous la
forme d’un tableau rectangulaire,
Les lignes correspondent à des individus ou unités
statistiques
Les colonnes à des variables appelées caractères
ou caractéristiques.
Les données peuvent être vues comme une collection
d’objets (enregistrements) et leurs attributs.
Analyse de données 20
Les données ?
Un attribut est une propriété et ou une caractéristique de l’objet.
Un ensemble d’attributs décrit un objet
Exemple : Attributs (caractéristiques)
Individus
(Objets)
Analyse de données 21
Types d'Attributs (variables) – Valeur ?
La valeur d’un attribut est un nombre ou un symbole.
Ne pas confondre attribut et valeur
Types :
1. Quantitative (numérique) : nombres sur lesquels les opérations usuelles (somme,
moyenne,...) ont un sens. Elles peuvent être :
• Discrète (ex : nombre d’étudiants dans un cours) ou continue (ex : taille, longueur)
• Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température, QI)
2. Qualificative : appartenance a une catégorie donnée, elles peuvent être :
• Variable ordinale quand les catégories sont ordonnées : classement à un concours, échelle
de satisfaction client. (Ex : très résistant, assez résistant, peu résistant).
• Variable nominale (couleur de yeux, diplôme obtenu, sexe)
Les différents types de variables vont conditionner le choix des techniques utilisées.
Analyse de données 22
Types d'Attributs - Définitions
• Les Modalités d’une variable sont l’ensemble des valeurs
qu’elle prend
dans les données
Ex : les modalité de notes sont {0,1,2,··· ,20}
les modalités de couleur sont {bleu,vert,noir,...}
• Population
groupe ou ensemble d'individus que l'on analyse.
• Recensement
étude de tous les individus d'une population donnée.
• Sondage
étude d'une partie seulement d'une population appelée
échantillon.
Analyse de données 23
Les type de Tableaux
• On considère dans la pratique 04 tableaux de
données sur lesquels s’appliquent des méthodes
d’analyses factorielles différentes:
• Tableau de variables Quantitatives
• Tableau de Contingence (possibilité, modalité)
• Tableaux d’enquêtes ou de sondages
• Tableaux quantitatifs où les individus sont regroupés par
paquet en fonction d’une variable qualitative
Analyse de données 24
Tableau de variables Quantitatives
Analyse de données 25
Tableau de Contingence
Analyse de données 26
Tableaux d’enquêtes ou de sondages
Analyse de données 27
Tableaux d’enquêtes ou de sondages
Analyse de données 28
Tableaux Quantitatifs où les Individus sont
Regroupés par Paquet
Analyse de données 29
Types de connaissances extraites ?
Connaissances sous la forme de modèles de description
permettant de
• Décrire le comportement actuel des données et/ou
• Prédire le comportement futur des données.
• Analyses : ex. distribution du trafic routier en fonction de
l’heure
• Règles : ex. si un client a acheté un produit alors il sera
intéressé par un autre.
• Attribution de scores de qualité ex. score de fidélité au
client
• Classification d’entités : ex. mauvais payeurs.
Analyse de données 30
Les logiciels utilisés ?
• Les calculs de l’ADD ne se font jamais à la main.
• Les logiciels pour l’utiliser sont très nombreux :
• les logiciels de traitement d’enquête (Le Sphinx, ethnos,
Question, …). ils intègrent quelques méthodes d’analyses
factorielles;
• les logiciels boîtes à outils (XLSTAT, Statbox). Ils permettent de
réaliser diverses analyses factorielles (ACP, AFC, ACM), quelques
techniques de classification (Classification hiérarchique, K-
moyennes) ainsi que les techniques de prévision classiques;
• Les logiciels de statistique (SPSS, SPAD, SAS, …). Conçus pour
manipuler et analyser de grands tableaux de données, ils sont très
complets sur le plan des méthodes présentes et sur les options
disponibles.
Analyse de données 31
Exercice
• Pour chacune des variables suivantes préciser le type de cette
variable ?
• Groupes sanguins=
• Lieu de résidence =
• Citoyenneté =
• Âge =
• Sexe =
• Pointure en chaussures=
• Couleur des yeux=
• Nombre de langues parlées=