Analyse Des Données
Analyse Des Données
L’analyse de données transforme les chiffres en savoir, les observations en connaissances, les mesures
en décisions.
1
21-5-2025
❑ Tableau individus × variables : chaque ligne est un individu (station, jour), chaque colonne est une variable.
❑ Séries temporelles : données mesurées au fil du temps (ex : débit journalier).
❑ Données spatiales : intégration de la position géographique (carte, SIG).
❑ Tableaux de contingence : croisements entre deux variables qualitatives.
2
21-5-2025
Conclusion
Structuration des données
Formuler des recommandations, hypothèses ou décisions.
Organiser les données dans un format exploitable...
Collecte des données Les données primaires : sont spécialement collectées pour répondre à une étude
statistique précise.
On distingue deux types des données :
Les données secondaires : sont des données qui existent déjà (Ex: statistiques
officielles…)
5
Les scientifiques de l’environnement peuvent utiliser l’analyse descriptive pour étudier les
tendances climatiques, les niveaux de pollution et les changements de la biodiversité.
Santé et biomédecine
3
21-5-2025
Industrie et production
Marketing et commerce
4
21-5-2025
Remarque
L’analyse de données trouve aujourd’hui des applications dans presque tous les domaines :
environnement, santé, agriculture, industrie, économie, marketing, sécurité, justice, éducation,
technologies et big data… Mais aussi dans de nombreux autres secteurs comme la chimie, les transports et
la mobilité, l’informatique, les télécommunications, les sciences sociales, l’urbanisme, les collectivités
territoriales, la logistique, la météorologie, la psychologie, la biologie, la recherche scientifique, ou encore
l’énergie. Cela témoigne de son caractère universel et stratégique dans notre société de l’information.
10
5
21-5-2025
11
o XLSTAT : plugin Excel avec des fonctions statistiques avancées (ACP, AFC, …).
o Tanagra / Orange : outils gratuits pour l’apprentissage automatique et les méthodes multivariées.
o KNIME : plateforme de data mining graphique
12
6
21-5-2025
13
❖ Objectif principal
Transformer un ensemble de variables initiales corrélées en un ensemble de nouvelles variables non corrélées, appelées
composantes principales, tout en perdant le moins possible d’information.
14
7
21-5-2025
Le nuage de points représentant les données s’inscrit dans un espace Si la dimension P = 2 : Il Si la dimension P > 3 : Il
de P dimensions, puisque chaque point représente un individu par est facile de présenter le est difficile de présenter le
rapport à nuage de points nuage de points
15
16
8
21-5-2025
Conditions :
✓ Toutes les variables doivent être quantitatives (numériques continues).
✓ Les données doivent être complètes (pas de valeurs manquantes pour l’ACP classique).
✓ Chaque ligne représente un individu dans un espace à 𝑝 dimensions.
17
❖ Réduction : Avec
Après transformation :
o Chaque variable a une moyenne = 0,
o Chaque variable a un écart-type = 1,
On obtient un nouveau tableau noté souvent 𝒁 ∈ 𝑹𝒏×𝒑: Le tableau centré-réduit.
18
9
21-5-2025
Mais ce n’est adapté que si toutes les variables sont dans la même unité
19
a. Problématique
▪ 𝜆𝑘 : valeur propre, scalaire réel positif
On travaille sur la matrice de corrélation 𝑅 ∈ 𝑅𝑝×𝑝 . On cherche à diagonaliser cette matrice : ▪ 𝑢𝑘 : vecteur propre, vecteur non nul de taille 𝑝
▪ Il y a au plus 𝑝 valeurs/vecteurs propres
20
10
21-5-2025
Soit :
• 𝑍 ∈ 𝑅 𝑛×𝑝 : le tableau des données centrées et réduites,
• 𝑢𝑘 ∈ 𝑅𝑝 : le vecteur propre associé à l’axe principal 𝐹𝑘 .
▪ 𝑭𝒌 ∈ 𝑹𝒏 → chaque individu 𝑖i reçoit une coordonnée sur
La composante principale 𝐹𝑘 est définie comme : Fk = Z ⋅ uk l’axe 𝑘,
▪ On obtient une nouvelle variable synthétique, combinaison linéaire
des variables initiales.
Forme développée :
Interprétation
o Chaque axe 𝐹𝑘 est orthogonal aux autres : les composantes sont non corrélées.
ajk : coefficient de la variable 𝑗 dans la composante 𝐹𝑘, o Le premier axe 𝐹1 maximise la variance projetée des données.
𝑧𝑖 : valeur centrée-réduite de la variable 𝑗 pour l’individu 𝑖, o Chaque individu est maintenant représenté par un point dans le nouvel espace
réduit : (F₁, F₂, ...).
𝐹𝑘(𝑖) : coordonnée de l’individu 𝑖 sur l’axe k.
21
22
11
21-5-2025
Projeter les individus (lignes du tableau) sur le plan formé par les Représenter graphiquement les variables initiales dans le même plan F1 × F2
deux premiers axes principaux, généralement F1 × F2 ❑ Construction :
❑ Construction : ✓ Les vecteurs de coordonnées des variables sont calculés à partir de :
23
▪ Si 𝑐𝑜𝑠 2 est proche de 1 → L’individu 𝑖 est bien représenté sur F1. ▪ Si 𝑐𝑜𝑠 2 est proche de 1 → Variable bien représentée sur l’axe
▪ Si 𝑐𝑜𝑠 2 est faible sur F1 et F2 → Mauvaise projection dans le plan. ▪ Si 𝑐𝑜𝑠 2 est faible → Flèche courte dans le cercle des corrélations
24
12
21-5-2025
▪ Fik : coordonnée de l’individu 𝑖 sur l’axe 𝑘 ▪ ajk : coefficient dans le vecteur propre
▪ 𝜆𝑘 : valeur propre de l’axe 𝑘k, ▪ 𝜆𝑘 : valeur propre de l’axe
▪ 𝑛 : nombre total d’individus.
Permet de détecter les individus les plus structurants pour Une variable peut être bien représentée (cos² élevé) mais ne pas
chaque axe. contribuer fortement à l’axe (faible contribution), et inversement.
25
Dans le cadre d’un programme de surveillance de la qualité des ressources en eau, une campagne de prélèvement a été réalisée
dans une région fluviale du nord du Maroc, sur 10 stations de mesure réparties le long d’un cours d’eau.
Ces stations couvrent des zones naturelles, agricoles et périurbaines, exposées à différents types de pressions anthropiques
(pollution agricole, déversements domestiques, etc.).
Objectif de l’étude :
26
13
21-5-2025
27
Si on ne les normalise pas, les variables les plus dispersées (ex. conductivité) domineront l’analyse.
28
14
21-5-2025
rjk ∈ [−1,1]
29
On cherche les racines de ce polynôme, c’est-à-dire les valeurs 𝜆𝑘 pour lesquelles le déterminant s’annule. Ces racines sont les
valeurs propres.
➢ Pour 𝑝 = 6, on obtient un polynôme de degré 6, dont les solutions sont trouvées numériquement à l’aide d’un logiciel
(Python, R, Excel, etc.).
Propriétés :
✓ Toutes les valeurs propres 𝜆𝑘 sont réelles et positives (car 𝑅 est symétrique et définie positive)
✓ La somme des 𝜆𝑘 est égale à 𝑝 (nombre de variables),
✓ Les valeurs propres sont triées décroissantes dans l’ACP.
30
15
21-5-2025
✓ F1 est un axe de pollution organique (DBO5, Nitrates ↑), opposé à l’oxygénation (O₂ ↓)
✓ pH et température ont moins d’effet dans cet axe
31
4. Ordre des axes : On classe les axes F1,F2,...,Fp par ordre décroissant de leur valeur propre λk.
Ce classement donne :
• F1 = axe qui explique le plus de variance
• F2 = axe complémentaire
• etc.
Variable F1 F2 F3
Inertie cumulée
Axe Valeur propre (λ) Inertie (%) Température 0.3792 -0.9121 -0.1132
(%)
F1 5.5401 92.34 92.34 pH -0.3880 -0.0440 -0.9178
32
16
21-5-2025
Station F1 F2 F3
S1 0.4663 -0.3545 -0.2456
S2 -2.6272 -0.3205 -0.3309
S3 2.1718 1.1422 0.3398
Les coordonnées factorielles
S4 3.0487 -0.0521 -0.6652
correspondent aux projections
S5 -2.7483 0.0676 0.3937
des stations sur les axes F1, F2 et
S6 0.7030 0.2523 -0.3858
F3.
S7 -2.7700 -0.1216 -0.2640
S8 2.8505 -0.8378 0.8363
S9 1.6691 -0.0718 -0.0763
S10 -2.7640 0.2962 0.3979
33
Plan factoriel des individus (nuage des stations) Cercle des corrélations (variables)
Il montre comment les variables sont projetées dans le plan F1 × F2, sous
Il projette les individus (stations) dans le plan F1 × F2, selon leurs
forme de flèches :
coordonnées factorielles.
▪ Longueur de la flèche → qualité de représentation (cos² élevé)
▪ Les stations proches ont des profils similaires
▪ Angle entre flèches → corrélation entre variables :
▪ Les axes F1 et F2 révèlent les contrastes dominants entre
➢ angle petit → corrélation positive forte
profils.
➢ angle proche de 180° → corrélation négative
➢ angle droit → indépendance
34
17
21-5-2025
35
36
18
21-5-2025
❖ Individus (stations) :
❑ Synthèse des cos² et contributions ▪ S4, S5, S2 → très bien projetées sur F1 (cos² > 0.99)
▪ S3 → forte contribution à F2
❖ Variables :
▪ DBO5, Nitrates, Conductivité → construisent F1
▪ Température → principale variable de F2
2. Conclusions générales
o L’ACP a clairement séparé les stations selon leur niveau de pollution, principalement sur l’axe F1.
o Elle a permis d’identifier les variables clés (DBO5, NO₃⁻, O₂, Conductivité) qui expliquent l’essentiel de la variance.
o Les représentations graphiques (plan des individus et cercle des corrélations) confirment les regroupements et les
oppositions.
37
On étudie fréquemment des relations entre deux L’AFC est un outil d’analyse exploratoire qui permet de visualiser et interpréter
variables qualitatives ces relations complexes dans un espace géométrique.
❑ Les données sont organisées sous forme de tableau croisé (ou tableau de contingence)
❑ On cherche à étudier les associations entre modalités des deux variables
❑ On souhaite représenter graphiquement ces relations dans un plan factoriel
L’AFC permet :
• De détecter des liaisons ou des oppositions entre modalités (ex. : hommes associés à "échec", femmes à "réussite")
• De regrouper les modalités qui se comportent de façon similaire
• De résumer l’information contenue dans un tableau croisé à deux dimensions principales (axes F1 et F2)
• De projeter lignes et colonnes dans un même plan, facilitant ainsi la lecture et l’interprétation.
38
19
21-5-2025
2. Matrice de correspondance
Elle est obtenue en normalisant les fréquences observées de la table de contingence par rapport à la somme totale des fréquences, afin d'obtenir les
fréquences relatives.
• fij est la fréquence observée dans la cellule i,j de la table
• n est la somme totale des fréquences dans la table.
39
▪ Inertie : L'inertie d'un axe mesure la variance expliquée par cet axe dans la structure globale des données. Plus l’inertie d’un axe est élevée,
plus cet axe est important pour expliquer les relations entre les modalités des variables.
▪ Contributions : La contribution d'une modalité à un axe factoriel est déterminée par l’inertie qu'elle explique sur cet axe. Ces contributions
sont utilisées pour évaluer l'importance relative de chaque variable ou modalité dans la construction des axes.
• Décomposition en valeurs propres : La matrice de correspondance est décomposée en valeurs propres et vecteurs propres. Chaque valeur
propre correspond à l’inertie capturée par un axe factoriel. L’axe avec la plus grande valeur propre capture la plus grande part de la variance
des données.
• Choix des axes : Les axes sont ordonnés en fonction de leur inertie (valeurs propres). En général, on conserve les axes qui capturent la
majeure partie de la variance et qui permettent de représenter les relations les plus significatives entre les modalités des variables.
40
20
21-5-2025
Pour chaque cellule de la table de contingence, nous calculons les fréquences relatives. La matrice de correspondance est obtenue en divisant
chaque fréquence par la somme totale de la table de contingence 𝑛.
• Pij est la fréquence relative dans la cellule 𝑖,𝑗
• fij est la fréquence observée dans la cellule i,j de la table
• n est la somme totale des fréquences dans la table.
o Lorsque nous travaillons avec une table de contingence, nous pouvons tester si l'association entre les modalités des variables est due au hasard ou si
elle est significative
o Le test du Khi-2 permet de comparer les fréquences observées dans la table de contingence avec les fréquences attendues sous l'hypothèse
d'indépendance des variables. Il teste donc la dépendance ou l'indépendance des variables qualitatives.
41
La valeur calculée de χ2 est comparée à une valeur critique de la distribution du Khi-2 pour un niveau de significativité α (généralement 0.05) et
les degrés de liberté ddl
Interprétation :
• Une valeur proche de 0 indique une faible association (variables indépendantes).
• Une valeur élevée indique une forte association (variables fortement dépendantes).
42
21
21-5-2025
Pour une cellule (i,j), le profil-ligne Pij est : ▪ fij : fréquence observée dans la cellule (𝑖,𝑗)
▪ 𝑓𝑖 : total marginal de la ligne 𝑖 (somme des
fréquences observées de la ligne 𝑖)
Total
Modalités C1 C2 ... Cj ... Cc
ligne
L1 P11 P12 ... P1j ... P1c 1.0
L2 P21 P22 ... P2j ... P2 1.0
... ... ... ... ... ... ... 1.0
Li Pi1 Pi2 ... Pij ... Pic 1.0
... ... ... ... ... ... ... 1.0
Lr Pr1 Pr2 ... Prj ... Prc 1.0
43
44
22
21-5-2025
Chaque élément du profil-colonne Pij est calculé par : ▪ f ij : fréquence observée dans la cellule (𝑖,𝑗)
▪ 𝑓⋅𝑗 : total marginal de la colonne 𝑗
45
Permet projeter les données dans un espace de dimension réduite (généralement 2 ou 3) qui conserve le maximum d’information
(inertie), afin de :
o Visualiser les associations entre modalités (biplots)
o Interpréter les liaisons entre variables qualitatives.
46
23
21-5-2025
❑ Profils moyens des lignes (vecteur 𝑟) : Pour chaque ligne i, la masse ri est :
• C’est le poids de la modalité-ligne i dans la matrice de correspondance. Cela donne un vecteur colonne :
❑ Profils moyens des colonnes (vecteur c) : Pour chaque colonne j, la masse cj est :
Pind ∈ 𝑹 𝒓 × 𝒄
• 𝒄𝑻 désigne la transposée du vecteur ligne c
C’est le produit extérieur du vecteur des masses lignes r et du vecteur des masses colonnes c.
47
Pour chaque cellule (i,j): Cela donne la matrice des résidus centrés : Z = P − r 𝒄𝑻
Permet de transformer la matrice des résidus centrés Z = P − r𝒄𝑻 en une matrice normalisée (standardisée), où chaque écart est pondéré en
fonction :
• du poids de la ligne 𝑟𝑖 du poids
• de la colonne 𝑐𝑗
Cela permet de respecter la structure statistique de l’AFC : la distance χ²
❖ Pour chaque cellule (𝑖,𝑗), on calcule :
▪ Zij : résidu centré
▪ 𝑟𝑖 : masse de la ligne 𝑖
▪ 𝑐𝑗 : masse de la colonne 𝑗
48
24
21-5-2025
49
Objectif est de Trouver la matrice 𝑈 = vecteurs propres de 𝑆𝑺𝑻 ( liés aux profils-lignes )
Pour chaque 𝜆𝑘 de 𝑆𝑺𝑻 , on résout : (S𝑺𝑻 − λk I)⋅uk = 0
Ce système donne les vecteurs propres 𝑢𝑘 . On les normalise pour qu’ils aient une norme unitaire : ∥uk∥ =1
➢ Chaque colonne de U est un vecteur propre de 𝑺𝑺𝑻 .
50
25
21-5-2025
➢ Cela indique l’importance de chaque axe dans l’explication des écarts à l’indépendance
51
➢ Formule simplifiée par coordonnée : (Si les données ont déjà été centrées et pondérées)
Formule générale :
➢ Formule simplifiée par coordonnée : (Si les données ont déjà été centrées et pondérées)
52
26
21-5-2025
➢ Représentation sur un même plan (souvent les 2 premiers axes) : Les profils-lignes et les profils-colonnes, Pour visualiser les proximités, les oppositions,
et les structures dans les données.
53
• 𝐹𝑖𝑘: coordonnée factorielle de la ligne 𝑖 sur l’axe 𝑘 • 𝐺 𝑗𝑘: coordonnée factorielle de la colonne 𝑗 sur l’axe 𝑘
• Le dénominateur est la distance carrée au centre (origine)
o Cos² proche de 1 : la modalité est très bien projetée sur l’axe (proche de l’axe)
o Cos² proche de 0 : la modalité est mal représentée (elle est surtout dans d'autres directions)
54
27
21-5-2025
c. Qualité de projection
• Si Cos² est faible : modalité mal projetée, on ne l’interprète pas.
• Si Cos² est élevé : modalité bien projetée, fiable pour interpréter l’axe
55
2. Matrice de correspondance 𝑃 :
56
28
21-5-2025
Âge / Produit Fruits Chips Soda Produit / Âge Jeunes Adultes Seniors
Jeunes 0.2 0.3 0.5 Fruits 0.2222 0.4444 0.3333
Adultes 0.5 0.25 0.25 Chips 0.5 0.3333 0.1667
Seniors 0.6 0.2 0.2 Soda 0.625 0.25 0.125
57
Avec
58
29
21-5-2025
Avec
o Soit: A = S𝑺𝑻 ∈ 𝑹𝒓×𝒓 Cela donne un polynôme caractéristique de degré 3. Les racines de ce polynôme sont les valeurs
propres 𝜆1, 𝜆2, 𝜆3
➢ Nous avons obtenu : λ1 = 0.132669, λ2 = 0.000697, λ3 = 0
59
❖ (S𝑺𝑻 − λk I)⋅uk = 0 Cela donne un système linéaire homogène à résoudre. Chaque solution non nulle 𝑢𝑘 est un vecteur propre associé à 𝜆𝑘
60
30
21-5-2025
61
62
31