0% ont trouvé ce document utile (0 vote)
198 vues26 pages

Cours

cours analyse de donnes

Transféré par

olfa harrabi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
198 vues26 pages

Cours

cours analyse de donnes

Transféré par

olfa harrabi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Exposé sous le thème:

Analyse en Composantes
Principales
Présenté par:
Tayssir Taam
Manel Snoussi
Nour Guesmi
Mayssa Keraani Enseignante:
Hamza Ghozzi Harrabi Olfa
Année Universitaire : 2023-2024
Hamza Werghemmi
PLAN

1 Définition

2 Principe

3 Démarche

4 Cas d’application

2
Définition de l’Analyse en Composantes Principales

ACP =>> L'Analyse en Composantes Principales est une méthode statistique qui vous permet
de simplifier des données complexes en les réduisant à leurs aspects les plus importants.

Elle transforme un ensemble de variables interdépendantes en un ensemble de nouvelles


variables non corrélées appelées "composantes principales".

Ces composantes principales capturent les variations essentielles dans les données et les
rangent de telle sorte que la première composante explique la plus grande part de la
variation, la deuxième composante explique la deuxième plus grande part, et ainsi de suite.

L'ACP est utile pour réduire la dimensionnalité des données, découvrir des tendances
cachées et simplifier l'analyse de données.

3
ACP: Quel type de données

Les champs d’application de l’ACP sont multiples, allant de la chimie, la biologie, la


recherche économique et sociale, le traitement d’images et l’apprentissage
Automatique… etc.

L’ACP est majoritairement utilisée pour:

•Décrire et visualiser des données

•Les dé corréler : la nouvelle base est constituée d’axes qui ne sont pas corrélés entre
eux

•Effectuer une réduction de dimension des données

4
Principe de L’ACP
Analyse en Composantes Principales fait partie du groupe des méthodes
descriptives multidimensionnelles appelées méthodes factorielles.
L’ACP propose à partir d’un tableau rectangulaire de données comportant les valeurs
des variables quantitatives pour des individus, des représentations géométrique de ces
individus et de ces variables .

Le but est de simplifier l'analyse des données tout en préservant l'essentiel de


l'information.

L’ACP a deux objectifs principaux. Elle permet d’étudier :

 La variabilité entre les individus


 Les liaisons entre les variables

5
Principe de L’ACP

Etude des individus : Etudier la ressemblances des individus du point de vue de


l’ensemble des variables .
=> Construire des groupes d’individus homogènes.
Etude des variables : Etudier la ressemblance des variables (Corrélation )
=>Recherche d’un petit nombre d’indicateurs synthétiques pour résumer
beaucoup de variables

ACP
Méthode descriptive- Synthétiser et résumer de grands
exploratoire: visualisation de tableaux individus * variables
données par graphiques
simples

6
Principe de L’ACP

Voici comment l’ACP se fonctionne :

1 Collecte des données : Vous devez collecter un ensemble de données multivariées, ce qui
signifie que vous avez plusieurs variables mesurées pour plusieurs observations.

2 Standardisation des données : Avant de réaliser l’ACP, il est généralement conseillé de


standardiser les données. Cela signifie que vous soustrayez la moyenne de chaque variable
à toutes les observations et divisez par l'écart type. La standardisation est importante car elle
met toutes les variables à la même échelle.

Création de la matrice de données : Les données standardisées sont organisées dans une
3 matrice, où les lignes représentent les observations et les colonnes représentent les
variables. Cette matrice est souvent notée X.

Calcul de la matrice de covariance : L'étape cruciale de l'ACP consiste à calculer la


4 matrice de covariance de la matrice de données X. La matrice de covariance mesure
les relations linéaires entre les variables.
7
Principe de L’ACP

5 Calcul des vecteurs propres et des valeurs propres :Les vecteurs propres représentent les
nouvelles variables, appelées composantes principales, qui sont des combinaisons linéaires des
variables originales. Les valeurs propres indiquent l'importance relative de chaque composante
principale dans la variabilité des données.

Sélection
composantes des composantes
principales sont principales
ordonnées en : Les de
fonction
l'importance de leurs valeurs propres. En général, les
6
premières
partie de lacomposantes
variance des principales
données, expliquent
de sorte quelavous
majeure
pouvez choisirprincipales
composantes de conserver unréduire
pour certainlanombre de ces
dimensionnalité
de vos données.
Projection des données : En utilisant les composantes principales sélectionnées, vous
7 projetez vos données originales dans un nouvel espace de variables défini par ces
composantes. Cela permet de réduire la dimensionnalité des données tout en
préservant l'essentiel de l'information.

8 Interprétation des résultats : Les composantes principales peuvent être interprétées en termes des variables
originales. Vous pouvez identifier les variables qui contribuent le plus à chaque composante principale, ce qui
peut aider à comprendre les structures sous-jacentes des données . 8
Démarche de l’ACP

Centrage et
réduction des
données

Déterminer matrice
variance-covariance
et/ou matrice de
corrélation

Calculer les
valeurs et vecteurs
propres

Déterminer les axes factoriels et


composantes principales 9
La moyenne
La moyenne: La moyenne arithmétique, est une mesure statistique de la tendance centrale d'un ensemble de
données. Elle est calculée en ajoutant toutes les valeurs de l'ensemble de données et en divisant la somme par le
nombre de valeurs.
La formule de la moyenne est la suivante :

P= (12.04+17.18+11.83+6.23+16.99+3.87 / 6= 11,36cm
(Tmax)= (23.7+15.5+13.1+13.5+21.1+20.3 /6 =17.87 ° 10
(Tmin )= (5.9+(-1.8)+2.8+(-2.4)+7.2+(-0.9) /6 =1.8°
L’écart-type

L’écart-type : est une mesure statistique de la dispersion ou de la variabilité des données au sein
d'un ensemble de données.

Variance (P) :
(12.04-11.36)²+( 17.18-11.36)²+(11.83-11.36)²+(6.23-11.36)²+(16.99-11.36)²+(3.87-11.36)²/6
=24.778
√24.778 = 4.98

Variance (Tmax):
(23.7-17.87)² +(15.5-17.87)²+(13.5-17.87)²+(21.1-17.83)²+(20.3-17.87)² / 6= 16.29
√16.29 = 4.04

Variance (Tmin ):
(5.9-1.8)²+ (-1.8-1.8)²+(2.8-1.8)²+(-2.4-1.8)²+(7.2-1.8)²+(-0.9-1.8)² /6 =14.14

√14.14 = 3.76
11
P T max T min

Moyenne 11.36 17.87 1.8

Ecart type 4.98 4.04 3.76

12
La matrice centrée réduite:

Par exemple : Zi Ajaccio: 12.04-11.36/4.98 =0.14

P T max T min
Ajaccio O.14 1.44 1.09
Brest 1.17 -0.59 -0.96
Dunkerque 0.10 -1.18 0.27
Nancy -1.30 -1.08 -1.12
Nice 1.13 0.80 1.44
Toulouse -1.50 0.60 -0.72
 De la même façon pour les autres
13
La corrélation: est une mesure statistique qui quantifie la relation entre deux variables. Elle indique dans quelle
mesure ces variables sont liées ou associées. Il existe plusieurs méthodes de calcul de la corrélation, la plus
courante étant la corrélation de Pearson . Il est largement utilisée pour analyser les relations entre les variables
dans les données quantitatives.
La corrélation de Pearson mesure la relation linéaire entre deux variables continues. Elle donne un nombre
entre -1 et 1, où :
•1 indique une corrélation positive parfaite : les deux variables augmentent ensemble de manière linéaire.
•0 indique aucune corrélation : les variables sont indépendantes l'une de l'autre.
•-1 indique une corrélation négative parfaite : les deux variables évoluent en sens inverse de manière linéaire

14
Matrice de corrélation

Matrice Transposée
Tmax Tmin
0.14 1.44 1.09 P

.
0.14
1.44
1.17 0.1 -1.03 1.13 -1.5
-0.59 -1.18 -1.08 0.8 0,6 . 1.17
0.1
-1.3
-0.59
-1.18
-1.08
-0.96
0.27
–1.12
P

= Tmax
1 0.09 0.49
0.09 1 0.62
1.09 -0.96 0.27 -1.12 1.44 -0.72 Tmin 0.49 0.62 1
-1.13 0.80 1.44
-1.5 0.60 -0.72

15
(0.14x0,14)+(1.17x1.17)+(0.10x0.10)+(-1.03x-1.03)+(-1.5x-1.5)+(1.13x1.13)=5.9 soit 6.
(0,14x,144)+(1,17x-0.59)+(0.10x-1.18)+(-1.03X-1.08)+(1.13X0.80)+(-1.5X0.6)=0.509 soit 0.51

(0,14x1.09)+(1,17x-0.96)+(0.10x0.27)+(-1.03X-1.12)+(1.13X1.44)+(-1.5X-0.72)= 2.92
(1,14x,109)+(-0,59x-0.96)+(-1.18x0.27)+(-1.08X-1.12)+(0.8X1.44)+(0.6X-0.72)= 3.74

16
Interprétation :

R(P Tmax)= 0,09


•La précipitation (P)et la température maximale (Tmax) sont faiblement
corrélées.
Cela signifie qu'il n'y a pas de relation linéaire forte entre ces deux variables.

R(P Tmin)=0,49
• La précipitation (P) et la température minimale (Tmin) sont modérément
corrélées.
Cela signifie qu'il existe une relation linéaire modérée entre ces deux variables.

R(Tmin, Tmax)=0,62
• La température maximale (Tmax) et la température minimale (Tmin) sont
fortement corrélées.
Cela signifie qu'il existe une relation linéaire forte entre ces deux variables.

17
Cas d’application

supposons que vous ayez un tableau de données avec deux variables, disons la
taille et le poids de différents individus.

La moyenne:

Moyenne de la taille = (Somme de toutes les tailles) / (Nombre d'individus)


 (170 + 155 + 180 + 165) / 4 = 670 / 4 = 167.5 cm (moyenne de la taille)

18
Moyenne du poids = (Somme de tous les poids) / (Nombre d'individus)
 (65 + 50 + 75 + 60) / 4 = 250 / 4 = 62.5 kg (moyenne du poids)

L’écart-type:

Calcul de l'écart type pour la taille :


 Moyenne de la taille : 167.5 cm
Calcul des écarts par rapport à la moyenne et carré de ces écarts :
(170−167.5)²=6.25
(155−167.5)²=156.25
(180−167.5)²=15.62
(165−167.5)²=6.25
Moyenne de ces carrés :
6.25+156.25+15.62+6.25/4= 184.375/4 =46.09
Racine carrée de la moyenne : √46.09 ≈ 6.79 cm (écart type pour la taille)
19
Calcul de l'écart type pour le poids :
Moyenne du poids : 62.5 kg
Calcul des écarts par rapport à la moyenne et carré de ces écarts :
(65−62.5)²=6.25
(50−62.5)²=156.25
(75−62.5)²=156.25
(60−62.5)²=6.25
Moyenne de ces carrés : 6.25+156.25+156.25+6.25/4 =324/4 =81
Racine carrée de la moyenne : √ 81=9 kg (écart type pour le poids)

 Ces valeurs d'écart type (6.79 cm pour la taille et 9 kg pour le poids) mesurent la
dispersion des données par rapport à la moyenne pour chaque variable.

20
21
Matrice centrée réduite:

Pour la taille :
Moyenne de la taille : 167.5 cm
Écart type de la taille : 6.79 cm

22
Pour le poids :
Moyenne du poids : 62.5 kg
Écart type du poids : 9 kg

23
Taille réduite : Cela exprime ces écarts par rapport à la moyenne en termes d'écart type.
Par exemple, la personne 3 est à 1.84 écart type au-dessus de la moyenne, indiquant une
taille assez éloignée de la moyenne.

Poids réduit : Cela indique la distance par rapport à la moyenne en termes


d'écart type. Par exemple, la personne 2 a un poids de 1.39 écart type en
dessous de la moyenne.

24
la matrice de corrélation : on applique la formule de corrélation de Pearson
pour chaque paire de données (taille, poids).

Après avoir refait les calculs, la corrélation entre la taille et le poids dans cet
exemple est effectivement d'environ 1.77. 25
La corrélation entre la taille et le poids dans cet exemple est
d'environ 1.77.
En interprétant cette corrélation; elle indique une
relation positive forte entre la taille et le poids dans cet
échantillon.

26

Vous aimerez peut-être aussi