0% ont trouvé ce document utile (0 vote)
146 vues31 pages

Analyse Des Données

L'analyse de données consiste en un ensemble de méthodes pour exploiter et interpréter des données complexes, visant à transformer ces données en informations exploitables pour la prise de décision. Elle utilise des techniques statistiques variées et s'applique dans de nombreux domaines, tels que l'environnement, la santé, l'agriculture, et l'économie. Les outils utilisés incluent des logiciels statistiques, des langages de programmation, et des technologies de big data pour effectuer des analyses avancées.

Transféré par

Hiba Khalil
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
146 vues31 pages

Analyse Des Données

L'analyse de données consiste en un ensemble de méthodes pour exploiter et interpréter des données complexes, visant à transformer ces données en informations exploitables pour la prise de décision. Elle utilise des techniques statistiques variées et s'applique dans de nombreux domaines, tels que l'environnement, la santé, l'agriculture, et l'économie. Les outils utilisés incluent des logiciels statistiques, des langages de programmation, et des technologies de big data pour effectuer des analyses avancées.

Transféré par

Hiba Khalil
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

21-5-2025

Chapitre 1 : Introduction à l'analyse de données


Définition et objectifs
Définition
L’analyse de données désigne :
o L’ensemble des méthodes permettant d’exploiter, interpréter, synthétiser et représenter des données issues
d’observations, d’enquêtes ou de mesures. Elle s’inscrit dans un processus décisionnel et vise à rendre lisibles
des informations souvent complexes ou volumineuses.
o L’ensemble de méthodes ayant pour objectif de résumer et visualiser l’information contenue dans un grand
tableau de données

Elle fait appel à :


➢ la statistique descriptive (résumer les données)
➢ la statistique inférentielle (généraliser à une population)
➢ des méthodes multivariées (étudier plusieurs variables en même temps)
➢ des outils graphiques, algorithmiques et informatiques

L’analyse de données transforme les chiffres en savoir, les observations en connaissances, les mesures
en décisions.

Chapitre 1 : Introduction à l'analyse de données


Définition et objectifs
Objectifs

L’analyse de données permet de :


o Décrire : résumer les caractéristiques principales des données.
o Explorer : détecter des structures ou tendances.
o Expliquer : comprendre les relations entre différentes variables.
o Prévoir : estimer des comportements futurs à partir des données.
o Aider à la décision : fournir une base factuelle pour orienter des choix.

Les principaux objectifs de l’analyse des données :

➢ Répondre aux problèmes posés par des tableaux de grandes dimensions


➢ Résumer les informations contenues dans un grand tableau sous forme d’une matrice
➢ Organiser et visualiser les informations

Le principe fondamental est de transformer un ensemble de données brutes, souvent complexes et


multidimensionnelles, en informations claires, synthétiques et exploitables. Cette transformation repose sur
une démarche structurée

1
21-5-2025

Chapitre 1 : Introduction à l'analyse de données


Types de données et classifications
Types de variables
Type de variable Description Exemple Analyse possible

Quantitative continue Valeurs numériques réelles pH, température Moyenne, ACP

Quantitative discrète Valeurs entières Nombre de bactéries Histogramme, moyenne


Qualitative nominale Catégories sans ordre Type de sol, ville Tableaux croisés, AFC
Niveau de pollution (faible, Codage numérique, tests
Qualitative ordinale Catégories ordonnées
fort) non paramétriques

Structure des données

❑ Tableau individus × variables : chaque ligne est un individu (station, jour), chaque colonne est une variable.
❑ Séries temporelles : données mesurées au fil du temps (ex : débit journalier).
❑ Données spatiales : intégration de la position géographique (carte, SIG).
❑ Tableaux de contingence : croisements entre deux variables qualitatives.

Chapitre 1 : Introduction à l'analyse de données


Différents types d’analyse de données

Type d’analyse Objectif principal Méthodes courantes Exemples

Résumer les données Moyenne, médiane, écart- Histogramme du pH,


Descriptive
observées type, histogramme moyenne de température

Découvrir des structures ACP, AFC, classification, Regrouper les stations de


Exploratoire
cachées corrélation mesure selon profils
Tests t, ANOVA,
Généraliser à partir d’un Comparer deux rivières
Inférentielle intervalles de confiance
échantillon sur les nitrates
(IC)
Régression, arbre de
Prévoir des valeurs Prévoir la pollution selon
Prédictive décision, machine
futures la météo
learning

Recommander des Optimisation, simulation, Identifier les zones


Prescriptive
décisions optimales intelligence artificielle prioritaires à traiter

2
21-5-2025

Chapitre 1 : Introduction à l'analyse de données


Processus de l’analyse de données
Collecte des données
récupérer les données utiles (mesures, relevés, enquêtes).

Conclusion
Structuration des données
Formuler des recommandations, hypothèses ou décisions.
Organiser les données dans un format exploitable...

Analyse des données Interprétation


Appliquer des méthodes statistiques selon l’objectif comprendre les résultats et repérer les tendances.
(moyennes, corrélations, ACP…).

Collecte des données Les données primaires : sont spécialement collectées pour répondre à une étude
statistique précise.
On distingue deux types des données :

Les données secondaires : sont des données qui existent déjà (Ex: statistiques
officielles…)
5

Chapitre 1 : Introduction à l'analyse de données


Domaines d’application de ADD
Environnement et génie de l’eau

Les scientifiques de l’environnement peuvent utiliser l’analyse descriptive pour étudier les
tendances climatiques, les niveaux de pollution et les changements de la biodiversité.

✓ Suivi de la qualité de l’eau, de l’air et des sols


✓ Analyse de la pollution (stations, sources, effets)
✓ Modélisation hydrologique, pluviométrique
✓ Surveillance des écosystèmes
✓ Gestion intégrée des ressources naturelles

Santé et biomédecine

✓ Analyse de données cliniques, biologiques, génétiques


✓ Détection de maladies, diagnostic assisté par données
✓ Suivi épidémiologique, prédiction de pandémies
✓ Études cliniques et validation de traitements
✓ Santé publique et médecine personnalisée

3
21-5-2025

Chapitre 1 : Introduction à l'analyse de données


Domaines d’application de ADD
Agriculture et agroalimentaire

✓ Suivi des cultures, irrigation, fertilité des sols


✓ Prédiction des rendements
✓ Analyse de la qualité des produits (température, humidité)
✓ Traçabilité alimentaire, sécurité sanitaire
✓ Agriculture de précision avec capteurs connectés

Industrie et production

✓ Contrôle qualité et conformité des produits


✓ Maintenance prédictive (capteurs, alertes)
✓ Optimisation des procédés industriels
✓ Analyse des défauts, détection de pannes
✓ Logistique et gestion de stocks intelligente

Chapitre 1 : Introduction à l'analyse de données


Domaines d’application de ADD
Économie et finance

✓ Analyse de séries temporelles (cours, taux, inflation)


✓ Prévision de tendances économiques
✓ Segmentation de portefeuilles et comportements clients
✓ Détection de fraudes, évaluation de risques
✓ Trading algorithmique et finance prédictive

Marketing et commerce

✓ Segmentation de marché et typologie de clients


✓ Études de satisfaction et d’opinion
✓ Prévision des ventes, analyse de panier
✓ Ciblage publicitaire personnalisé
✓ Analyse des parcours clients en ligne (tracking web)

4
21-5-2025

Chapitre 1 : Introduction à l'analyse de données


Domaines d’application de ADD
Sécurité et justice

✓ Analyse criminelle et prédiction d’actes (data mining)


✓ Optimisation des ressources policières
✓ Évaluation de politiques publiques
✓ Détection de fraudes ou comportements suspects

Technologies et big data

✓ Exploitation des capteurs IoT (objets connectés)


✓ Analyse de flux de données massifs (big data)
✓ Intelligence artificielle et apprentissage
automatique
✓ Visualisation interactive et analyse en temps réel

Chapitre 1 : Introduction à l'analyse de données


Domaines d’application de ADD

Remarque

L’analyse de données trouve aujourd’hui des applications dans presque tous les domaines :
environnement, santé, agriculture, industrie, économie, marketing, sécurité, justice, éducation,
technologies et big data… Mais aussi dans de nombreux autres secteurs comme la chimie, les transports et
la mobilité, l’informatique, les télécommunications, les sciences sociales, l’urbanisme, les collectivités
territoriales, la logistique, la météorologie, la psychologie, la biologie, la recherche scientifique, ou encore
l’énergie. Cela témoigne de son caractère universel et stratégique dans notre société de l’information.

10

5
21-5-2025

Chapitre 1 : Introduction à l'analyse de données


Les outils et technologies utilisés dans ADD
❖ Outils statistiques classiques
Utilisés pour des traitements descriptifs, inférentiels ou exploratoires

o Excel : très répandu, facile d’accès, adapté aux analyses simples.


o SPSS (Statistical Package for the Social Sciences) : outil professionnel pour l’analyse statistique (tests,
modèles, régressions…).
o SAS (Statistical Analysis System) : puissant pour les bases de données très volumineuses.
o Minitab : utilisé dans l’industrie et la qualité.

❖ Langages de programmation et outils open source


Permettent des analyses avancées, la modélisation, l'automatisation et la visualisation

o R : langage statistique puissant, avec de nombreux packages spécialisés.


o Python (avec NumPy, pandas, matplotlib, scikit-learn…) : très utilisé en science des données.
o Julia : langage performant, adapté aux calculs numériques intensifs.
o Octave / Matlab : pour les analyses numériques et la modélisation mathématique.

11

Chapitre 1 : Introduction à l'analyse de données


Les outils et technologies utilisés dans ADD

❖ Logiciels spécialisés en data mining / analyse multivariée

o XLSTAT : plugin Excel avec des fonctions statistiques avancées (ACP, AFC, …).
o Tanagra / Orange : outils gratuits pour l’apprentissage automatique et les méthodes multivariées.
o KNIME : plateforme de data mining graphique

❖ Outils de visualisation et tableaux de bord

Pour représenter graphiquement les données de manière interactive

o Tableau : très utilisé pour la datavisualisation professionnelle.


o Power BI : outil Microsoft de reporting dynamique.
o Google Data Studio : pour les rapports web en ligne.
o QlikView : solution d’analyse visuelle interactive.

12

6
21-5-2025

Chapitre 1 : Introduction à l'analyse de données


Les outils et technologies utilisés dans ADD

❖ Bases de données et outils de stockage

o SQL / PostgreSQL / MySQL : pour interroger et gérer des bases relationnelles.


o MongoDB / NoSQL : pour les données semi-structurées et massives.
o Hadoop / Spark : pour le traitement de très grandes quantités de données distribuées.

❖ Technologies émergentes et cloud


o Cloud computing : (Google Cloud, AWS, Azure) pour le stockage et traitement à distance.
o IA et machine learning : intégrés dans Python, R, RapidMiner, TensorFlow, etc.
o Capteurs IoT : collectent automatiquement des données environnementales ou industrielles.
o APIs : permettent de connecter et automatiser les flux de données.

13

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Définition générale
L’ACP est une méthode statistique multivariée exploratoire qui permet de résumer l’information contenue dans un
tableau de données quantitatives, tout en réduisant sa dimension.

❖ Objectif principal

Transformer un ensemble de variables initiales corrélées en un ensemble de nouvelles variables non corrélées, appelées
composantes principales, tout en perdant le moins possible d’information.

Le jeu de données contient beaucoup de variables quantitatives

Les variables sont redondantes (corrélées entre elles)


L’ACP est utilisée lorsque :
On souhaite visualiser les données dans un espace à 2 ou 3 dimensions

On veut résumer les profils d’individus ou d’observations.

14

7
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Principe de l’ACP
L ’ACP consiste à transformer un ensemble de variables initiales 𝑋1,𝑋2,...,𝑋𝑝​ corrélées en un nouvel ensemble de variables
𝐹1,𝐹2,...,𝐹𝑝 , appelées composantes principales, qui sont :
➢ Non corrélées entre elles (orthogonales)
➢ Classées par ordre d’importance (inertie)
➢ Et qui résument au mieux l’information du jeu de données.
ACP permet de :
✓ Résumer les informations contenant dans un tableau en n individus et p variables
✓ Remplacer les p variables avec q nouvelles variables avec q < p

D’un point de vue géométrique

Le nuage de points représentant les données s’inscrit dans un espace Si la dimension P = 2 : Il Si la dimension P > 3 : Il
de P dimensions, puisque chaque point représente un individu par est facile de présenter le est difficile de présenter le
rapport à nuage de points nuage de points

Il est difficile de visualiser les relations existantes entre les


variables dès que p >3

15

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Démarche de l’ACP
Soit n individus caractérisés par p variables métriques
Ces données sont présentées dans un tableau appelé la Matrice des données de dimension n*p

❑ Les étapes pour déterminer la composante principale :

Centrage et réduction des données

Déterminer les valeurs propres et les vecteurs propres sur la base


de la matrice de corrélation entre les variables

Déterminer les axes factoriels Sélectionner les composantes


principales

16

8
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Démarche de l’ACP
Éléments techniques de l’ACP (formules de base)
L’ACP repose sur des opérations algébriques appliquées à un tableau de données numériques.
❑ Les principales étapes et les formules fondamentales

1. Tableau des données


On considère un tableau de données : avec n = nombre d’individus, p = nombre de variables

Avant de démarrer l’ACP, on centre (et souvent réduit) les colonnes de 𝑋

Conditions :
✓ Toutes les variables doivent être quantitatives (numériques continues).
✓ Les données doivent être complètes (pas de valeurs manquantes pour l’ACP classique).
✓ Chaque ligne représente un individu dans un espace à 𝑝 dimensions.

17

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Démarche de l’ACP
Éléments techniques de l’ACP (formules de base)
2. Centrage et réduction
Pourquoi ?
Avant d’appliquer l’ACP, on transforme les données pour :
Car les variables peuvent avoir des unités ou des échelles
➢ Centrer chaque variable (moyenne = 0)
différentes, et il ne faut pas qu’une variable avec de grandes
➢ Réduire chaque variable (écart-type = 1)
valeurs (comme la conductivité) domine l’analyse.

Soit 𝑥𝑖 la valeur de la variable 𝑗 pour l’individu 𝑖.


On applique :
❖ Centrage : Avec

❖ Réduction : Avec

Après transformation :
o Chaque variable a une moyenne = 0,
o Chaque variable a un écart-type = 1,
On obtient un nouveau tableau noté souvent 𝒁 ∈ 𝑹𝒏×𝒑: Le tableau centré-réduit.

18

9
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Démarche de l’ACP
Éléments techniques de l’ACP (formules de base)
3. Matrice de corrélation
La matrice de corrélation 𝑅 est une matrice carrée symétrique de taille 𝑝×𝑝, où :

o r ≈ +1 → variables très positivement corrélées ▪ zij​ = Donnée centrée-réduite


o r ≈ –1 → variables très négativement corrélées ▪ rjk ∈ [−1,1]
o r ≈ 0 → pas de lien linéaire ▪ rjj =1 (corrélation parfaite avec soi-même)

❑ Si les données ne sont pas réduites

On utilise la matrice de covariance :

Mais ce n’est adapté que si toutes les variables sont dans la même unité

19

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Démarche de l’ACP
Éléments techniques de l’ACP (formules de base)
4. Diagonalisation ( Valeurs propres et vecteurs propres )
L’objectif est de l’extraire les axes principaux de l’ACP. Ces axes sont les directions dans lesquelles la variance des données est maximale.
Chaque axe est défini par :
• Une valeur propre (ou inertie) → proportion de variance expliquée,
• Un vecteur propre → combinaison linéaire des variables originales.

a. Problématique
▪ 𝜆𝑘 ​: valeur propre, scalaire réel positif
On travaille sur la matrice de corrélation 𝑅 ∈ 𝑅𝑝×𝑝 . On cherche à diagonaliser cette matrice : ▪ 𝑢𝑘 : vecteur propre, vecteur non nul de taille 𝑝
▪ Il y a au plus 𝑝 valeurs/vecteurs propres

b. Calcul de l'inertie (variance expliquée) : c. Rôle des vecteurs propres :


Chaque vecteur propre 𝑢𝑘 = (𝑎1𝑘, 𝑎2𝑘, ..., 𝑎𝑝𝑘) donne les poids (ou charges) de chaque
variable initiale dans la composante principale 𝐹𝑘
La composante principale 𝐹𝑘 est donc une combinaison linéaire des variables :
Cela donne le pourcentage de l’information portée par chaque axe. On
conserve en général les deux ou trois premiers axes, ceux qui
expliquent au moins 70–80 % de l’inertie cumulée.
Ces coefficients sont utilisés pour projeter les individus sur les axes, et pour tracer le
cercle des corrélations.

20

10
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Démarche de l’ACP
Éléments techniques de l’ACP (formules de base)
5. Calcul des composantes principales
Après avoir obtenu les valeurs propres 𝜆𝑘 et les vecteurs propres 𝑢𝑘, on peut construire les composantes principales 𝐹𝑘, qui sont les
nouvelles variables non corrélées. Ces composantes sont des axes factoriels le long desquels les données sont projetées.

Soit :
• 𝑍 ∈ 𝑅 𝑛×𝑝 : le tableau des données centrées et réduites,
• 𝑢𝑘 ∈ 𝑅𝑝 : le vecteur propre associé à l’axe principal 𝐹𝑘​ .
▪ 𝑭𝒌 ∈ 𝑹𝒏 → chaque individu 𝑖i reçoit une coordonnée sur
La composante principale 𝐹𝑘 est définie comme : Fk​ = Z ⋅ uk l’axe 𝑘,
▪ On obtient une nouvelle variable synthétique, combinaison linéaire
des variables initiales.
Forme développée :
Interprétation
o Chaque axe 𝐹𝑘 est orthogonal aux autres : les composantes sont non corrélées.
ajk : coefficient de la variable 𝑗 dans la composante 𝐹𝑘, o Le premier axe 𝐹1 maximise la variance projetée des données.
𝑧𝑖 : valeur centrée-réduite de la variable 𝑗 pour l’individu 𝑖, o Chaque individu est maintenant représenté par un point dans le nouvel espace
réduit : (F₁, F₂, ...).
𝐹𝑘(𝑖) : coordonnée de l’individu 𝑖 sur l’axe k.

21

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Démarche de l’ACP
Éléments techniques de l’ACP (formules de base)
6. Représentations graphiques de l’ACP
L’une des grandes forces de l’ACP est sa capacité de visualisation. Deux graphiques sont essentiels :
❑ Le plan factoriel des individus (ou nuage de points)
❑ Le cercle des corrélations (pour les variables)

Plan factoriel des individus Cercle des corrélations

22

11
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Démarche de l’ACP
Éléments techniques de l’ACP (formules de base)
6. Représentations graphiques de l’ACP
Plan factoriel des individus Cercle des corrélations

Projeter les individus (lignes du tableau) sur le plan formé par les Représenter graphiquement les variables initiales dans le même plan F1 × F2
deux premiers axes principaux, généralement F1 × F2 ❑ Construction :
❑ Construction : ✓ Les vecteurs de coordonnées des variables sont calculés à partir de :

✓ Les coordonnées factorielles 𝐹1(𝑖),𝐹2(𝑖) pour chaque individu 𝑖 sont


calculées à l’étape précédente. ✓ Chaque variable est représentée par une flèche (ou vecteur) partant de l’origine
✓ Chaque individu est représenté par un point dans un espace 2D. ✓ L’ensemble est placé dans un cercle unité de rayon 1
❑ Interprétation :
❑ Interprétation :
Situation des points Signification Position des flèches Interprétation
Individus proches Profils similaires (valeurs semblables Longue et proche du bord Variable bien représentée sur F1/F2
sur les variables)
Deux flèches proches Variables positivement corrélées
Individus éloignés Profils très différents
Flèches opposées Variables négativement corrélées
Axe F1 Explique le plus de variance
Angle droit (≈ 90°) Variables indépendantes
Axe F2 Complément d’information
Flèche courte (vers le centre) Variable mal représentée sur ce plan

23

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Démarche de l’ACP
Éléments techniques de l’ACP (formules de base)
7. Contributions, cos² et qualité de représentation
Les résultats graphiques (plan factoriel, cercle des corrélations) sont utiles, mais doivent être quantifiés pour :
✓ Savoir quelles variables ou individus influencent le plus chaque axe,
✓ Évaluer la fiabilité de leur représentation dans le plan (F1, F2…).

a. Cos² : qualité de représentation


Le cos² mesure la proportion de la variance d’un individu ou d’une variable expliquée par un axe.

Pour les individus Pour les variables

▪ Si 𝑐𝑜𝑠 2 est proche de 1 → L’individu 𝑖 est bien représenté sur F1. ▪ Si 𝑐𝑜𝑠 2 est proche de 1 → Variable bien représentée sur l’axe
▪ Si 𝑐𝑜𝑠 2 est faible sur F1 et F2 → Mauvaise projection dans le plan. ▪ Si 𝑐𝑜𝑠 2 est faible → Flèche courte dans le cercle des corrélations

24

12
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Démarche de l’ACP
Éléments techniques de l’ACP (formules de base)
7. Contributions, cos² et qualité de représentation
b. Contribution (%) à un axe
La contribution indique combien une variable ou un individu participe à la formation d’un axe.

Pour un individu 𝑖 Pour une variable 𝑗 sur l’axe 𝐹𝑘

▪ Fik​ : coordonnée de l’individu 𝑖 sur l’axe 𝑘 ▪ ajk​ : coefficient dans le vecteur propre
▪ 𝜆𝑘​ : valeur propre de l’axe 𝑘k, ▪ 𝜆𝑘 : valeur propre de l’axe
▪ 𝑛 : nombre total d’individus.

Permet de détecter les individus les plus structurants pour Une variable peut être bien représentée (cos² élevé) mais ne pas
chaque axe. contribuer fortement à l’axe (faible contribution), et inversement.

25

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Exemple d’application

Dans le cadre d’un programme de surveillance de la qualité des ressources en eau, une campagne de prélèvement a été réalisée
dans une région fluviale du nord du Maroc, sur 10 stations de mesure réparties le long d’un cours d’eau.

Ces stations couvrent des zones naturelles, agricoles et périurbaines, exposées à différents types de pressions anthropiques
(pollution agricole, déversements domestiques, etc.).

Objectif de l’étude :

Utiliser l’Analyse en Composantes Principales (ACP) pour :


➢ Identifier les profils de qualité des différentes stations,
➢ Mettre en évidence les paramètres dominants (pollution organique, oxygénation, minéralisation…),
➢ Détecter des similarités ou oppositions entre stations,
➢ Réduire la complexité des données tout en conservant leur structure informative.

26

13
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Exemple d’application
Tableau de données brutes – Qualité de l’eau

Oxygène dissous Conductivité


Station Température (°C) pH DBO5 (mg/L) Nitrates (mg/L)
(mg/L) (µS/cm)

S1 19.2 7.1 4.6 18.0 6.4 420


S2 17.5 7.3 2.0 11.0 8.3 310
S3 18.1 6.9 6.8 22.0 4.5 470
S4 20.3 7.0 7.1 24.5 4.0 500
S5 16.8 7.2 1.9 10.2 8.6 305
S6 18.6 7.1 5.4 19.2 5.6 410
S7 17.2 7.3 2.4 9.5 8.2 300
S8 21.0 6.8 6.2 21.3 4.9 460
S9 19.5 7.0 5.9 20.0 5.1 445
S10 16.5 7.2 2.1 9.8 8.5 310

27

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Étape 1 : Centrage et réduction
Les variables (température en °C, DBO5 en mg/L, conductivité en µS/cm, etc.) ont :
• Des unités différentes,
• Des ordres de grandeur variés.

Station Température pH DBO5 Nitrates O2 dissous Conductivité


S1 0.51 0.06 0.08 0.26 -0.01 0.36
S2 -0.67 1.33 -1.21 -1.01 1.09 -1.11
S3 -0.26 -1.20 1.17 0.99 -1.10 1.03
Après transformation :
S4 1.27 -0.57 1.32 1.44 -1.39 1.43
✓ Moyenne de chaque variable = 0 S5 -1.16 0.70 -1.26 -1.15 1.26 -1.18
✓ Écart-type de chaque variable = 1
S6 0.09 0.06 0.47 0.48 -0.47 0.23
S7 -0.88 1.33 -1.01 -1.28 1.03 -1.25
S8 1.76 -1.84 0.87 0.86 -0.87 0.90
S9 0.72 -0.57 0.72 0.63 -0.76 0.70
S10 -1.37 0.70 -1.16 -1.23 1.21 -1.11

Si on ne les normalise pas, les variables les plus dispersées (ex. conductivité) domineront l’analyse.

28

14
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Étape 2 : Calcul de la matrice de corrélation

o La matrice de corrélation est une matrice carrée de taille 𝑝 × 𝑝 (ici, 𝑝 = 6 variables)


o Chaque élément 𝑟𝑗𝑘​ de cette matrice est la corrélation linéaire entre les variables 𝑋𝑗 et 𝑋𝑘

rjk ∈ [−1,1]

Température pH DBO5 Nitrates O2 dissous Conductivité

Température 1.00 -0.78 0.82 0.86 -0.84 0.86

pH -0.78 1.00 -0.88 -0.86 0.87 -0.88

DBO5 0.82 -0.88 1.00 0.99 -1.00 0.99

Nitrates 0.86 -0.86 0.99 1.00 -0.99 0.99

O2 dissous -0.84 0.87 -1.00 -0.99 1.00 -0.99

Conductivité 0.86 -0.88 0.99 0.99 -0.99 1.00

29

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Étape 3 : Diagonalisation – Valeurs propres et vecteurs propres
1. On part de la matrice de corrélation : On note 𝑅 ∈ 𝑅𝑝×𝑝 la matrice de corrélation calculée entre les p variables.
Dans notre exemple, 𝑝=6, donc 𝑅 ∈ 𝑅 6×6 .
➢ Elle est symétrique et positive définie.

2. Résoudre l’équation caractéristique : Équation à résoudre : ▪ R : matrice de corrélation (symétrique, 𝑝×𝑝)


▪ 𝜆 : scalaire inconnu (valeur propre),
▪ 𝐼 : matrice identité 𝑝×𝑝,
Le déterminant doit être égal à zéro.

On cherche les racines de ce polynôme, c’est-à-dire les valeurs 𝜆𝑘 pour lesquelles le déterminant s’annule. Ces racines sont les
valeurs propres.
➢ Pour 𝑝 = 6, on obtient un polynôme de degré 6, dont les solutions sont trouvées numériquement à l’aide d’un logiciel
(Python, R, Excel, etc.).

Propriétés :

✓ Toutes les valeurs propres 𝜆𝑘​ sont réelles et positives (car 𝑅 est symétrique et définie positive)
✓ La somme des 𝜆𝑘​ est égale à 𝑝 (nombre de variables),
✓ Les valeurs propres sont triées décroissantes dans l’ACP.

30

15
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Étape 3 : Diagonalisation – Valeurs propres et vecteurs propres
▪ R : matrice de corrélation 𝑝×𝑝
▪ 𝜆𝑘: valeur propre (déjà trouvée)
3. Calcul des vecteurs propres 𝑢𝑘: Pour chaque 𝜆𝑘​ , on résout :
▪ 𝑢𝑘 ∈ 𝑅 𝑝 : vecteur propre (inconnu)
▪ I : matrice identité.

o On trouve un vecteur 𝑢𝑘​ non nul qui vérifie cette équation.


o C’est une combinaison linéaire des variables.
o Chaque composante du vecteur donne le poids d’une variable dans la construction de l’axe 𝐹𝑘

Indique l’influence et le sens de


Soit un vecteur propre : cette variable (positif ou
négatif).

✓ F1 est un axe de pollution organique (DBO5, Nitrates ↑), opposé à l’oxygénation (O₂ ↓)
✓ pH et température ont moins d’effet dans cet axe

31

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Étape 3 : Diagonalisation – Valeurs propres et vecteurs propres

4. Ordre des axes : On classe les axes F1,F2,...,Fp par ordre décroissant de leur valeur propre λk.
Ce classement donne :
• F1 = axe qui explique le plus de variance
• F2 = axe complémentaire
• etc.

Valeurs propres et inerties (variance expliquée) Vecteurs propres (axes F1 à F3)

Variable F1 F2 F3
Inertie cumulée
Axe Valeur propre (λ) Inertie (%) Température 0.3792 -0.9121 -0.1132
(%)
F1 5.5401 92.34 92.34 pH -0.3880 -0.0440 -0.9178

F2 0.2413 4.02 96.36 DBO5 0.4192 0.2722 -0.1514

F3 0.1965 3.27 99.63 Nitrates 0.4202 0.1464 -0.2398

F4 0.0167 0.28 99.91 O2 dissous -0.4194 -0.2280 0.2060

F5 0.0044 0.07 99.98 Conductivité 0.4212 0.1365 -0.1484

F6 0.0009 0.02 100.00

32

16
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Étape 4 : Calcul des composantes principales
o Projeter chaque individu (ici, chaque station) dans le nouvel espace défini par les axes principaux F 1,F2,F3
Objectif : o Les coordonnées factorielles nous indiquent où se trouve chaque station sur chaque axe, donc quels profils elles
suivent.

Pour chaque individu i et chaque axe Fk :

Station F1 F2 F3
S1 0.4663 -0.3545 -0.2456
S2 -2.6272 -0.3205 -0.3309
S3 2.1718 1.1422 0.3398
Les coordonnées factorielles
S4 3.0487 -0.0521 -0.6652
correspondent aux projections
S5 -2.7483 0.0676 0.3937
des stations sur les axes F1, F2 et
S6 0.7030 0.2523 -0.3858
F3.
S7 -2.7700 -0.1216 -0.2640
S8 2.8505 -0.8378 0.8363
S9 1.6691 -0.0718 -0.0763
S10 -2.7640 0.2962 0.3979

33

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Étape 5 : Représentations graphiques

Plan factoriel des individus (nuage des stations) Cercle des corrélations (variables)

Il montre comment les variables sont projetées dans le plan F1 × F2, sous
Il projette les individus (stations) dans le plan F1 × F2, selon leurs
forme de flèches :
coordonnées factorielles.
▪ Longueur de la flèche → qualité de représentation (cos² élevé)
▪ Les stations proches ont des profils similaires
▪ Angle entre flèches → corrélation entre variables :
▪ Les axes F1 et F2 révèlent les contrastes dominants entre
➢ angle petit → corrélation positive forte
profils.
➢ angle proche de 180° → corrélation négative
➢ angle droit → indépendance

34

17
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Étape 6 : Contributions, cos² et qualité de représentation
Évaluer quelle station ou quelle variable contribue le plus à chaque axe, et quelle est la qualité de sa représentation
Objectif : dans le plan factoriel..

Pour les individus (Les stations) Pour les variables


Contribution Contribution
Station cos² F1 cos² F2
F1 (%) F2 (%)
S1 0.6337 0.3663 0.39 5.21
Contribution F1 Contribution F2
S2 0.9853 0.0147 12.46 4.26 Variable cos² F1 cos² F2
(%) (%)
S3 0.7833 0.2167 8.51 54.06
Température 0.1438 0.8319 2.60 344.69
S4 0.9997 0.0003 16.78 0.11
pH 0.1505 0.0019 2.72 0.80
S5 0.9994 0.0006 13.63 0.19
DBO5 0.1757 0.0741 3.17 30.71
S6 0.8859 0.1141 0.89 2.64
Nitrates 0.1766 0.0214 3.19 8.88
S7 0.9981 0.0019 13.85 0.61
S8 0.9205 0.0795 14.67 29.08 O2 dissous 0.1759 0.0520 3.18 21.54
S9 0.9982 0.0018 5.03 0.21 Conductivité 0.1774 0.0186 3.20 7.72
S10 0.9886 0.0114 13.79 3.64
o Les cos² > 0.7 → variable bien représentée dans le cercle des corrélations.
o cos² > 0.8 → station bien représentée sur l’axe o Les contributions indiquent l’impact de chaque variable sur la
o Contribution > 10 % → station structure fortement l’axe. construction des axes :
Par exemple : S4 et S5 structurent très fortement l’axe F₁ → elles sont typiques • DBO5, Nitrates, O₂ dissous → structurent bien F1,
du groupe pollué (S4) ou propre (S5), • Température → structure très fortement F2.
S3 structure très fortement l’axe F₂.

35

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Interprétations et conclusions de l’exemple
1. Interprétations générales
a. Signification des axes
Axe F1 (92.3 % de la variance) Axe F2 (4.0 % de la variance)

• Structure principale de l’information.


• Composé majoritairement de : • Porte sur des variations secondaires : Forte contribution de
➢ DBO5 (+), Nitrates (+), Conductivité (+) la Température (344 %)
➢ O₂ dissous (–) • Permet une légère séparation verticale des stations par
température ou autres facteurs marginaux.
F1 oppose :
❖ Stations polluées (DBO5↑, NO₃⁻↑, Cond↑, O₂↓)
❖ Stations propres (O₂↑, DBO5↓, etc.)

b. Répartition des stations


Groupe Stations Caractéristiques

Propres S2, S5, S7, S10 Faible DBO5, NO₃⁻ ; O₂ élevé


Polluées S3, S4, S8, S9 DBO5, NO₃⁻, Conductivité élevés ; O₂ faible
Intermédiaires S1, S6 Profils mixtes (situés au centre du nuage)

36

18
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse en Composantes Principales (ACP)
Interprétations et conclusions de l’exemple
1. Interprétations générales
• Variables bien représentées sur F1 : DBO5, NO₃⁻, O₂ dissous (cos² ≈ 0.18)
c. Cercle des corrélations : • Variables peu informatives sur F1 : pH, Température (cos² < 0.15)
• Température très dominante sur F2

❖ Individus (stations) :
❑ Synthèse des cos² et contributions ▪ S4, S5, S2 → très bien projetées sur F1 (cos² > 0.99)
▪ S3 → forte contribution à F2
❖ Variables :
▪ DBO5, Nitrates, Conductivité → construisent F1
▪ Température → principale variable de F2

2. Conclusions générales

o L’ACP a clairement séparé les stations selon leur niveau de pollution, principalement sur l’axe F1.
o Elle a permis d’identifier les variables clés (DBO5, NO₃⁻, O₂, Conductivité) qui expliquent l’essentiel de la variance.
o Les représentations graphiques (plan des individus et cercle des corrélations) confirment les regroupements et les
oppositions.

37

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Définition
L'analyse factorielle des correspondances (AFC), ou analyse des correspondances simples, est une méthode exploratoire d'analyse des tableaux de
contingence. Elle a été développée essentiellement par J.P. Benzecri durant la période 1970-1990.

On étudie fréquemment des relations entre deux L’AFC est un outil d’analyse exploratoire qui permet de visualiser et interpréter
variables qualitatives ces relations complexes dans un espace géométrique.

On utilise l’AFC lorsque :

❑ Les données sont organisées sous forme de tableau croisé (ou tableau de contingence)
❑ On cherche à étudier les associations entre modalités des deux variables
❑ On souhaite représenter graphiquement ces relations dans un plan factoriel

Objectif principal de l’AFC

L’AFC permet :
• De détecter des liaisons ou des oppositions entre modalités (ex. : hommes associés à "échec", femmes à "réussite")
• De regrouper les modalités qui se comportent de façon similaire
• De résumer l’information contenue dans un tableau croisé à deux dimensions principales (axes F1 et F2)
• De projeter lignes et colonnes dans un même plan, facilitant ainsi la lecture et l’interprétation.

38

19
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Principe de l'AFC
• L’AFC repose sur une approche géométrique pour explorer les relations entre deux ensembles de variables qualitatives. Elle s'applique
principalement aux tableaux de contingence
• L'idée fondamentale de l'AFC est de réduire la complexité des données en projetant les modalités des variables sur un espace à faible
dimension (généralement en 2D ou 3D), tout en maximisant l'information contenue dans la structure des données.

❑ Principes fondamentaux qui sous-tendent AFC


1. Les données et la table de contingence
C’est une matrice dans laquelle chaque ligne représente une modalité d'une variable et chaque colonne représente une modalité d'une autre variable

Préférence Hommes Femmes


Végétarien 20 30
Omnivore 50 40

2. Matrice de correspondance
Elle est obtenue en normalisant les fréquences observées de la table de contingence par rapport à la somme totale des fréquences, afin d'obtenir les
fréquences relatives.
• fij est la fréquence observée dans la cellule i,j de la table
• n est la somme totale des fréquences dans la table.

39

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Principe de l'AFC
3. Calcul des inerties et des contributions

▪ Inertie : L'inertie d'un axe mesure la variance expliquée par cet axe dans la structure globale des données. Plus l’inertie d’un axe est élevée,
plus cet axe est important pour expliquer les relations entre les modalités des variables.
▪ Contributions : La contribution d'une modalité à un axe factoriel est déterminée par l’inertie qu'elle explique sur cet axe. Ces contributions
sont utilisées pour évaluer l'importance relative de chaque variable ou modalité dans la construction des axes.

4. Méthode des axes principaux


Consiste à identifier les directions qui expliquent le mieux la variance des données

• Décomposition en valeurs propres : La matrice de correspondance est décomposée en valeurs propres et vecteurs propres. Chaque valeur
propre correspond à l’inertie capturée par un axe factoriel. L’axe avec la plus grande valeur propre capture la plus grande part de la variance
des données.
• Choix des axes : Les axes sont ordonnés en fonction de leur inertie (valeurs propres). En général, on conserve les axes qui capturent la
majeure partie de la variance et qui permettent de représenter les relations les plus significatives entre les modalités des variables.

5. Interprétation des axes factoriels


• Projection des modalités : Les modalités sont projetées sur les axes factoriels. Les modalités proches l’une de l’autre sur l’espace factoriel indiquent
une forte association entre elles, tandis que celles éloignées sont moins associées.
• Biplot : Un graphique en biplot est utilisé pour représenter visuellement les modalités des variables projetées sur les premiers axes factoriels. Ce
graphique permet de repérer les relations entre les modalités, en montrant les regroupements ou oppositions possibles.
• Qualité de représentation : Les modalités avec une bonne qualité de représentation se trouvent proches de l'origine du graphique, tandis que celles
avec une faible qualité se trouvent plus éloignées.

40

20
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 1 : Construction de la table de contingence
Construire une table de contingence qui résume les fréquences d'apparition des combinaisons de modalités des deux variables qualitatives.

Préférence Hommes Femmes Variable 1


Végétarien 20 30
Variable 2
Omnivore 50 40 Fréquence observée

Étape 2 : Transformation en matrice de correspondance

Pour chaque cellule de la table de contingence, nous calculons les fréquences relatives. La matrice de correspondance est obtenue en divisant
chaque fréquence par la somme totale de la table de contingence 𝑛.
• Pij​ est la fréquence relative dans la cellule 𝑖,𝑗
• fij est la fréquence observée dans la cellule i,j de la table
• n est la somme totale des fréquences dans la table.

Étape 3 : Indépendance des variables

o Lorsque nous travaillons avec une table de contingence, nous pouvons tester si l'association entre les modalités des variables est due au hasard ou si
elle est significative
o Le test du Khi-2 permet de comparer les fréquences observées dans la table de contingence avec les fréquences attendues sous l'hypothèse
d'indépendance des variables. Il teste donc la dépendance ou l'indépendance des variables qualitatives.

41

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 3 : Indépendance des Variables
• Hypothèse nulle (𝐻0 ) : Les deux variables sont indépendantes.
Hypothèses du Test du Khi-2 :
• Hypothèse alternative (𝐻1) : Les deux variables sont dépendantes.

Calcul de la Statistique χ2 : ▪ Oij​ : Effectif observée dans la cellule 𝑖,𝑗


▪ 𝐸𝑖𝑗: Effectif attendue dans la cellule 𝑖,𝑗
ddl = (r − 1) × (c − 1) ▪ r : Nombre de lignes
▪ 𝑐 : Nombre de colonnes.

La valeur calculée de χ2 est comparée à une valeur critique de la distribution du Khi-2 pour un niveau de significativité α (généralement 0.05) et
les degrés de liberté ddl

❑ Ecart a l’indépendance: Phi-2 (φ²)


Il permet de mesurer l’intensité de l’association indépendamment de la taille de l’échantillon. n: Total général (effectif total)

Interprétation :
• Une valeur proche de 0 indique une faible association (variables indépendantes).
• Une valeur élevée indique une forte association (variables fortement dépendantes).

42

21
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC

Étape 3 : Calcul des profils-lignes et profils-colonnes


1. Profils-Lignes
o Les profils-lignes représentent la répartition relative des fréquences observées dans chaque ligne de la table de contingence.
o Chaque profil-ligne est calculé en divisant chaque effectif observé d’une ligne par le total de cette même ligne.

Pour une cellule (i,j), le profil-ligne Pij est : ▪ fij​ : fréquence observée dans la cellule (𝑖,𝑗)
▪ 𝑓𝑖​ : total marginal de la ligne 𝑖 (somme des
fréquences observées de la ligne 𝑖)

❑ Tableau des Profils-Lignes (matrice des profils-lignes ):

Total
Modalités C1 C2​ ... Cj ... Cc
ligne
L1 P11​ P12​ ... P1j​ ... P1c 1.0
L2 P21​ P22​ ... P2j​ ... P2 1.0
... ... ... ... ... ... ... 1.0
Li Pi1 Pi2​ ... Pij ... Pic 1.0
... ... ... ... ... ... ... 1.0
Lr Pr1​ Pr2​ ... Prj ... Prc 1.0

43

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC

Étape 3 : Calcul des profils-lignes et profils-colonnes


1. Profils-Lignes
❑ Distance du Khi-2 entre Profils-lignes
o La distance du Khi-2 mesure la dissimilarité entre deux profils-lignes (modalités de la première variable)
o Cette distance prend en compte la répartition des fréquences observées et marginales.

Distance du Khi-2 entre deux Profils-Lignes i et i′ est :


▪ Pij​ et 𝑃𝑖′𝑗 : profils-lignes des modalités 𝑖 et 𝑖′ sur la colonne 𝑗
▪ 𝑃⋅𝑗​ : profil moyen (marginal) de la colonne 𝑗
Avec : ▪ 𝑛 : effectif total
▪ 𝑐 : nombre de colonnes (modalités de la deuxième variable)
▪ f⋅j​ : total marginal de la colonne 𝑗

❑ Inertie d’un Profil-ligne


L'inertie d’un profil-ligne mesure sa contribution globale à l'inertie totale.

▪ f i⋅​ : proportion marginale de la ligne 𝑖


Avec : ▪ 𝒅𝝌𝟐(𝒊, 𝑮)𝟐 : distance χ² au carré entre la modalité 𝑖 et le profil moyen global
(centre de gravité G)

44

22
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 3 : Calcul des profils-lignes et profils-colonnes
1. Profils-Colonne
o Un profil-colonne représente la distribution proportionnelle des fréquences observées pour chaque colonne
o Il indique comment se répartit chaque modalité colonne sur l'ensemble des modalités des lignes.

Chaque élément du profil-colonne Pij est calculé par : ▪ f ij​ : fréquence observée dans la cellule (𝑖,𝑗)
▪ 𝑓⋅𝑗​ : total marginal de la colonne 𝑗

❑ Tableau des Profils-colonnes (matrice des profils-colonnes ):

Modalités C1 C2​ ... Cj ... Cc

L1 P11​ P12​ ... P1j​ ... P1c


L2 P21​ P22​ ... P2j​ ... P2
... ... ... ... ... ... ...
Li Pi1 Pi2​ ... Pij ... Pic
... ... ... ... ... ... ...
Lr Pr1​ Pr2​ ... Prj ... Prc
Total colonne 1 1 1 1 1 1

45

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 3 : Calcul des profils-lignes et profils-colonnes
1. Profils-colonne
❑ Distance du Khi-2 entre Profils-colonnes
La distance χ² mesure la proximité entre deux profils-colonnes (modalités des colonnes).
▪ 𝑃𝑖𝑗′ et Pij: profils-colonnes des modalités colonnes 𝑗 et 𝑗′ (en lignes 𝑖)
▪ 𝑃𝑖⋅: profil moyen marginal des lignes, calculé par 𝑃𝑖⋅ =𝑓𝑖⋅ / 𝑛
▪ n : effectif total

❑ Inertie d’un Profil-Colonne :


▪ fi⋅ : fréquence marginale de la ligne i divisée par n
Avec : (poids de la modalité)

Étape 4 : Décomposition de l’inertie — Méthode des axes principaux

Permet projeter les données dans un espace de dimension réduite (généralement 2 ou 3) qui conserve le maximum d’information
(inertie), afin de :
o Visualiser les associations entre modalités (biplots)
o Interpréter les liaisons entre variables qualitatives.

46

23
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 4 : Décomposition de l’Inertie — Méthode des Axes Principaux
a. Profils moyens (ou masses)

❑ Profils moyens des lignes (vecteur 𝑟) : Pour chaque ligne i, la masse ri​ est :

• C’est le poids de la modalité-ligne i dans la matrice de correspondance. Cela donne un vecteur colonne :

❑ Profils moyens des colonnes (vecteur c) : Pour chaque colonne j, la masse cj​ est :

• C’est le poids de la modalité-colonne j. Cela donne un vecteur ligne :

b. Construction de la matrice d’indépendance 𝑃ind


Permet de Créer une matrice qui représente la structure attendue des données si les deux variables (lignes et colonnes) étaient statistiquement
indépendantes.

Pind ∈ 𝑹 𝒓 × 𝒄
• 𝒄𝑻 désigne la transposée du vecteur ligne c
C’est le produit extérieur du vecteur des masses lignes r et du vecteur des masses colonnes c.

47

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 4 : Décomposition de l’Inertie — Méthode des Axes Principaux
c. Calcul de la matrice des résidus centrés
On mesure, pour chaque cellule (i,j), l’écart entre la fréquence observée Pij​ et la fréquence attendue Pind,ij = ri ⋅ cj si les lignes et les colonnes
étaient indépendantes.

Pour chaque cellule (i,j): Cela donne la matrice des résidus centrés : Z = P − r 𝒄𝑻

d. Matrice des résidus pondérés (ou standardisés)

Permet de transformer la matrice des résidus centrés Z = P − r𝒄𝑻 en une matrice normalisée (standardisée), où chaque écart est pondéré en
fonction :
• du poids de la ligne 𝑟𝑖 du poids
• de la colonne 𝑐𝑗
Cela permet de respecter la structure statistique de l’AFC : la distance χ²
❖ Pour chaque cellule (𝑖,𝑗), on calcule :
▪ Zij​ : résidu centré
▪ 𝑟𝑖 : masse de la ligne 𝑖
▪ 𝑐𝑗 : masse de la colonne 𝑗

48

24
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 4 : Décomposition de l’Inertie — Méthode des Axes Principaux
e. Décomposition en valeurs propres — Analyse spectrale (SVD)
On applique une décomposition en valeurs propres à la matrice des résidus pondérés 𝑆, afin de :
• Identifier les axes principaux de l’inertie,
• Calculer les valeurs propres (= inertie de chaque axe),
• Trouver les vecteurs propres (coordonnées directionnelles des lignes et colonnes).

▪ D r ​: matrice diagonale des poids lignes


Soit une matrice standardisée 𝑆 (matrice centrée et pondérée) : ▪ D c​ : matrice diagonale des poids colonnes
On effectue : ▪ U ∈ 𝑹𝒓×𝒓 : vecteurs propres à gauche (liés aux lignes)
▪ 𝑉 ∈ 𝑹𝒄×𝒄 : vecteurs propres à droite (liés aux colonnes)
▪ Δ = diag (𝛿1,𝛿2,… ): valeurs singulières
𝟐
▪ Valeurs propres : 𝝀𝒌 = 𝜹𝒌
❑ Calcul de Δ (valeurs singulières) :

1. On commence par former la matrice : S𝑺𝑻 ∈ 𝑹𝒓×𝒓 ou 𝑺𝑻 S ∈ 𝑹𝒄×𝒄


2. Ensuite, on calcule les valeurs propres de l’une de ces matrices : λk​ = valeurs propres de 𝐒𝑺𝑻 ou 𝑺𝑻 S
Soit: A = S𝑺𝑻 ∈ 𝑹𝒓×𝒓 (ou A = 𝑺𝑻 S ∈ 𝑹𝒄×𝒄 )
On cherche les scalaires 𝜆 tels que : det(A − λI) = 0 On résout cette équation pour trouver les 𝜆1,𝜆2,… (comme l’ACP)
3. On en déduit les valeurs singulières : Ces valeurs δk vont dans la diagonale de Δ.

49

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 4 : Décomposition de l’Inertie — Méthode des Axes Principaux
e. Décomposition en Valeurs Propres — Analyse Spectrale (SVD)

❑ Calcul des vecteurs propres de la matrice 𝑆𝑺𝑻

Objectif est de Trouver la matrice 𝑈 = vecteurs propres de 𝑆𝑺𝑻 ( liés aux profils-lignes )
Pour chaque 𝜆𝑘​ de 𝑆𝑺𝑻 , on résout : (S𝑺𝑻 − λk​ I)⋅uk​ = 0
Ce système donne les vecteurs propres 𝑢𝑘​ . On les normalise pour qu’ils aient une norme unitaire : ∥uk∥ =1
➢ Chaque colonne de U est un vecteur propre de 𝑺𝑺𝑻 .

❑ Calcul de la matrice V = vecteurs propres de 𝑺𝑻 S

𝑉 contient les vecteurs propres de 𝑺𝑻 𝑆, liés aux profils-colonnes.


Chaque solution vk est un vecteur propre, On
Pour chaque 𝜆𝑘​ de 𝑆𝑺𝑻 , on résout : (𝑺𝑻 𝐒 − λk​ I)⋅vk​ = 0 les normalise : ∥vk∥=1

➢ Chaque colonne de 𝑉 est un vecteur propre de 𝑺𝑻 𝑆.

50

25
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 4 : Décomposition de l’Inertie — Méthode des Axes Principaux
f. Inertie des axes factoriels et pourcentage d’information expliquée

Il permet d’évaluer l’importance de chaque axe factoriel dans l’AFC à l’aide :


𝟐
• Des valeurs propres 𝜆𝑘 = 𝜹𝒌
• De l’inertie totale
• Du pourcentage d’inertie expliqué par chaque axe
❑ Inertie totale de l’AFC :

▪ ϕ 2 = variance totale expliquée par l’AFC


L’inertie totale est la somme de toutes les valeurs propres : ▪ χ 2 = statistique du test d’indépendance sur le
tableau initial
▪ n = total général des effectifs

❑ Inertie relative (ou % d’inertie)

Pour chaque axe 𝑘 :

➢ Cela indique l’importance de chaque axe dans l’explication des écarts à l’indépendance

51

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 4 : Décomposition de l’Inertie — Méthode des Axes Principaux
g. Calcul des coordonnées factorielles
❑ Coordonnées factorielles des profils-lignes

Les lignes de la table (profils-lignes) sont projetées par :

➢ Formule simplifiée par coordonnée : (Si les données ont déjà été centrées et pondérées)

▪ δk​ = valeur singulière associée à l’axe 𝑘


▪ Fik​ = coordonnée de la ligne 𝑖 dans le vecteur propre 𝑘

❑ Coordonnées Factorielles des Profils-Colonnes

Formule générale :

➢ Formule simplifiée par coordonnée : (Si les données ont déjà été centrées et pondérées)

▪ G jk​ : coordonnée de la colonne 𝑗 sur l’axe factoriel 𝑘


▪ v jk : coordonnée du vecteur propre 𝑘 (dans 𝑉)

52

26
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 4 : Décomposition de l’Inertie — Méthode des Axes Principaux
g. Construction du Biplot
Un biplot AFC est un nuage de points avec :
• Les lignes représentées par leurs coordonnées factorielles 𝐹𝑖𝑘
• Les colonnes représentées par 𝐺𝑗𝑘
• Les axes sont 𝐹1 et 𝐹2 , ou tout autre couple (𝐹𝑘,𝐹𝑙)

➢ Représentation sur un même plan (souvent les 2 premiers axes) : Les profils-lignes et les profils-colonnes, Pour visualiser les proximités, les oppositions,
et les structures dans les données.

Souvent les deux premiers axes (ceux


❑ Choix les axes à représenter : qui expliquent le plus d’inertie) :
Axe 1←λ1​ ; Axe 2←λ2

❑ Utiliser les coordonnées ✓ Coordonnées lignes : 𝐹𝑖1, 𝐹𝑖2​


factorielles : ✓ Coordonnées colonnes : 𝐺𝑗1, 𝐺𝑗2

✓ Lignes : cercles ou points


❑ Représenter les deux
✓ Colonnes : triangles, carrés ou
nuages de points :
couleurs différentes

53

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 5 : Analyse des contributions, cos² et qualité de représentation
a. Contributions des lignes et colonnes aux axes

Contribution d’une modalité-ligne 𝑖 à l’axe 𝑘 Contribution d’une modalité-colonne 𝑗 à l’axe 𝑘

• 𝑟𝑖 : poids (masse) de la ligne 𝑖


• 𝐹𝑖𝑘: coordonnée factorielle de la ligne 𝑖 sur l’axe 𝑘 • c j : poids (masse) de la colonne 𝑗
• 𝜆𝑘: valeur propre de l’axe 𝑘 • 𝐺 𝑗𝑘: coordonnée factorielle de la colonne 𝑗 sur l’axe 𝑘

b. Cos² (Qualité de représentation)

Cos² pour une modalité-ligne 𝑖 à l’axe 𝑘 Cos² pour une^modalité-colonne 𝑗 à l’axe 𝑘

• 𝐹𝑖𝑘: coordonnée factorielle de la ligne 𝑖 sur l’axe 𝑘 • 𝐺 𝑗𝑘: coordonnée factorielle de la colonne 𝑗 sur l’axe 𝑘
• Le dénominateur est la distance carrée au centre (origine)

o Cos² proche de 1 : la modalité est très bien projetée sur l’axe (proche de l’axe)
o Cos² proche de 0 : la modalité est mal représentée (elle est surtout dans d'autres directions)

54

27
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Démarche de AFC
Étape 6 – Interprétation du plan factoriel (Biplot)
a. Lire l’inertie des axes

• Si la somme des deux premières inerties > 70 %, : le plan est interprétable.


• Sinon, on peut utiliser l’axe 3 si besoin.

b. Sens de chaque axe


• Les modalités avec les plus fortes contributions sont elles qui définissent l’axe.
• L’axe s’oppose les modalités aux extrémités.

c. Qualité de projection
• Si Cos² est faible : modalité mal projetée, on ne l’interprète pas.
• Si Cos² est élevé : modalité bien projetée, fiable pour interpréter l’axe

d. Plan graphique (biplot)


• Proximité : ligne et colonne proches → association forte
• Opposition : modalités sur des côtés opposés → différence ou incompatibilité
• Distance à l’origine : plus c’est loin → plus c’est spécifique
• Points proches entre eux → modalités similaires (cluster)

55

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Exemple d’application : Consommation de produits par tranche d’âge
1. Table de contingence initiale (effectifs bruts) :

Âge / Produit Fruits Chips Soda Total


Jeunes 20 30 50 100
Adultes 40 20 20 80
Seniors 30 10 10 50
Total 90 60 80 230

2. Matrice de correspondance 𝑃 :

Âge / Produit Fruits Chips Soda Total


Jeunes 20/230 ≈ 0.0870 30/230 ≈ 0.1304 50/230 ≈ 0.2174 0.4348
Adultes 40/230 ≈ 0.1739 20/230 ≈ 0.0870 20/230 ≈ 0.0870 0.3478
Seniors 30/230 ≈ 0.1304 10/230 ≈ 0.0435 10/230 ≈ 0.0435 0.2174
Total 0.3913 0.2609 0.3478 1.0000

56

28
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Exemple d’application : Consommation de produits par tranche d’âge
4. Calcul des profils-lignes et profils-colonnes

Âge / Produit Fruits Chips Soda Masse (somme ligne)


Jeunes 0.0870 0.1304 0.2174 0.4348
Adultes 0.1739 0.0870 0.0870 0.3478
Seniors 0.1304 0.0435 0.0435 0.2174
Masse (somme colonne) 0.3913 0.2609 0.3478 1

Matrice des profils-lignes Matrice des profils-colonnes

Âge / Produit Fruits Chips Soda Produit / Âge Jeunes Adultes Seniors
Jeunes 0.2 0.3 0.5 Fruits 0.2222 0.4444 0.3333
Adultes 0.5 0.25 0.25 Chips 0.5 0.3333 0.1667
Seniors 0.6 0.2 0.2 Soda 0.625 0.25 0.125

57

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Exemple d’application : Consommation de produits par tranche d’âge
5. Calcul de la matrice d’indépendance :

• Ces valeurs sont des écarts réduits (standardisés) entre


le profil observé et le profil attendu sous Âge / Produit Fruits Chips Soda
l’indépendance. Jeunes – 0.2017 + 0.0505 + 0.1701
• Une valeur positive : modalité plus présente
qu’attendu sous l’hypothèse d’indépendance. Adultes + 0.1025 – 0.0126 – 0.0978
• Une valeur négative : modalité moins présente Seniors + 0.1556 – 0.0556 – 0.1169
qu’attendu.

6. Décomposition en Valeurs Propres


❖ Matrice S𝑺𝑻 ∈ 𝑹𝒓×𝒓 (utilisée pour les profils-lignes (vecteurs propres dans U)) :

Avec

58

29
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Exemple d’application : Consommation de produits par tranche d’âge
6. Décomposition en Valeurs Propres
❖ Matrice 𝑺𝑻 S ∈ 𝑹𝒄×𝒄 (utilisée pour les profils-colonnes (vecteurs propres dans V) :

Avec

❑ Résoudre l'équation caractéristique : det(A − λI) = 0

o Soit: A = S𝑺𝑻 ∈ 𝑹𝒓×𝒓 Cela donne un polynôme caractéristique de degré 3. Les racines de ce polynôme sont les valeurs
propres 𝜆1, 𝜆2, 𝜆3
➢ Nous avons obtenu : λ1 ​= 0.132669, λ2​ = 0.000697, λ3​ = 0

➢ valeurs singulières : δ1​ = 0.3642, 𝛿2=0.0264, 𝛿3 = 0


𝑻 𝒄×𝒄
o Soit : A = 𝑺 S ∈ 𝑹
➢ Nous avons obtenu : λ1 ​= 0.132669, λ2​ = 0, λ3​ = 0.000697

➢ valeurs singulières : δ1​ = 0.3642, 𝛿2=0, 𝛿3=0.0264

59

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Exemple d’application : Consommation de produits par tranche d’âge
6. Décomposition en Valeurs Propres
❑ Calcul des vecteurs propres

❖ (S𝑺𝑻 − λk​ I)⋅uk​ = 0 Cela donne un système linéaire homogène à résoudre. Chaque solution non nulle 𝑢𝑘 est un vecteur propre associé à 𝜆𝑘

Modalité-ligne Axe 1 (u₁) Axe 2 (u₂) Axe 3 (u₃)


Jeunes –0.7375 +0.6592 +0.1468
Adultes +0.3871 +0.5907 –0.7080
Seniors +0.5534 +0.4653 +0.6908

❖ (𝑺𝑻 𝐒 − λk​ I)⋅vk​ = 0

Modalité-colonne Axe 1 (v1) Axe (v2) Axe 3 (v2)


Fruits –0.7537 +0.6256 +0.2013
Chips +0.2001 +0.5103 –0.8364
Soda +0.6260 +0.5902 +0.5098

60

30
21-5-2025

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Exemple d’application : Consommation de produits par tranche d’âge
6. Décomposition en Valeurs Propres
❑ Coordonnées factorielles)
o Coordonnées factorielles des profils-lignes

Âge Axe 1 Axe 2 Axe 3


Jeunes –0.2686 +0.0174 0.0000
Adultes +0.1410 +0.0156 0.0000
Seniors +0.2016 +0.0123 0.0000

o Coordonnées Factorielles des Profils-Colonnes

Produit Axe 1 Axe 2 Axe 3


Fruits –0.2745 0.0000 +0.0053
Chips +0.0729 0.0000 –0.0221
Soda +0.2280 0.0000 +0.0135

61

Chapitre 2 : Analyse par réduction des dimensions


Analyse Factorielle des Correspondances (AFC)
Exemple d’application : Consommation de produits par tranche d’âge
7. Construction du Biplot

✓ Jeunes sont très proches de Soda : forte association.


✓ Adultes et Seniors sont du côté opposé : associés à Fruits.
✓ Chips est centré, donc faiblement discriminant.
✓ L’axe 1 explique la majorité de l’inertie : il suffit souvent
à interpréter l’analyse.

62

31

Vous aimerez peut-être aussi