0
GROUPE DE CONTROLE n17
ENCADRE PAR :
RAPPORT
17 SUR L’ANALYSE DE
MR.JAHIDI
DONNÉES
Présenté par :
DRISS TALEB
FEJJAJ RIHAB
IBNOUEL KHADIM YASSIR
Remerciement S5 – G5
s
Nous adressons nos remerciements à notre
professeur Mr. Jahidi pour son aide, son écoute, et
ses conseils fructueux qu’ils n’ont cessé de nous
prodiguer durant toute la durée de réalisation de
notre étude.
Nous souhaitons également faire part de nos
remerciements au corps professoral et
administratif de l’Ecole Nationale de Commerce et
de Gestion de Settat , qui par leurs compétences
nous accompagnent et nous soutiennent dans
1
notre quête.
2
Table des matières
I. INTRODUCTION ................................................................................ 3
II. PRESENTATION DE LA BASE DE DONNEES……....................... 4
III. INTERPRETATION DES RESULTATS …...................................... 5
PARTIE 1 : L’ANALYSE EN COMPOSANTES PRINCIPALES ACP
1. Definition : ...................................................................................................5
2. Statistiques descriptives : .......................................................................5
3. Matrice de correlation : ...........................................................................6
4. Indice kmo et test de bartlett : ...............................................................7
5. Variance totale expliquee :.......................................................................7
6. Qualites de representation :....................................................................8
7. Graphe de la valeur propre :...................................................................9
8. Matrice des composantes ......................................................................10
9. Diagramme de composantes :...............................................................11
10. Nuage des points ......................................................................................12
PARTIE 2 : L’ANALYSE TYPOLOGIQUE AT
1. Definition : ...............................................................................................13
2. Matrice de proximite.................................................................................14
3. Distance de WARD .................................................................................15
4. Le diagramme :........................................................................................16
5. Le dendrogramme : ................................................................................17
IV. CONCLUSION :..................................................................................... 18
3
I-INTRODUCTION :
Notre rapport actuel se porte sur une étude qui met en
scène les pays arabes, ce sujet est très important dans le
monde économique du fait qu’il étudie l’ensemble des
indicateurs économiques au sein de ces pays.
En ce qui concerne notre rapport, il est basé en premier lieu
sur le cours d’analyse des données de notre affectueux
professeur.
En second lieu, nous sommes basés sur une base de
données qui traite les pays arabes en se basant sur
plusieurs indicateurs comme le PIB, L’espérance de vie
ainsi que des taux.
Pour réaliser cette étude, nous avons focalisé sur l’ACP
(analyse des composantes) qui a pour objectif de réduire
les données ainsi que de l’analyser afin d’avoir une
visualisation profonde de ces données et l’AT (analyse
typologique) afin de déterminer la cohérence des facteurs.
Ces derniers permettent de construire des variables fort
corrélées et bien choisie afin de les interpréter et de
déduire une conclusion.
4
II-PRESENTATION DE LA BASE DE
DONNEES :
Pays PIB PIB HABITANT TxUrbanisation TxAlphabetisation Espérance vie PopilationTotal Superficie
Algérie 166545 4845 65,5 72,6 72 34373426 2380
Arabie S 468800 17870 82,4 85,5 73 24645686 2253
Bahreïn 21902,8 28240 88,5 90,8 76 775585 0,71
EAU 198693 45531 77,9 90 78 4484935 80
Egypte 162283 1991 42,7 66,4 70 81527172 1002
Jordanie 21237,6 3596 78,4 92,2 73 5906043 92
Koweït 148024 54260 98,4 94,5 78 2728041 17,8
Liban 29264,3 6978 87 88,5 72 4193758 10
Libye 93167,7 14802 77,5 88,4 74 6294181 1760
Maroc 88883 2769 56 56,4 71 31605616 710
Oman 41638,4 15273 71,6 86,7 76 2785361 310
Qatar 116851 116851 95,6 93,1 76 1280862 11,7
Soudan 55926,6 1353 43,4 69,3 58 41347723 2500
Syrie 55204,3 2160 54,2 83,6 74 20581290 185
Tunisie 40308,9 3903 65,6 78 74 10327800 164
III-INTERPRETATION DES RESULTATS5:
Partie 1 : L’analyse en composantes principales ACP
1) Définition :
L'analyse en composantes principales (A.C.P.) est une méthode de l'analyse
des données basée sur la recherche des axes principaux d'un nuage de points
et sur l'analyse de la représentation de ce dernier dans le repère formé par
les premiers de ces axes. Le but de l'A.C.P. est d'obtenir une représentation
du nuage dans un espace de dimension réduite de telle manière que l'inertie
expliquée dans cet espace soit le plus grand possible. Pour cela, il est
nécessaire dans un premier temps de rechercher les plus grandes valeurs
propres de la matrice et de déterminer, par les vecteurs propres associés, les
axes de plus forte inertie du nuage des individus dans l'espace des
paramètres. Ceci fait, une carte factorielle permettra de montrer les
caractéristiques essentielles du jeu de données étudié. Ceci pourra être
complété par une carte représentant le cercle de corrélation des paramètres,
afin de pouvoir faire le lien entre la position des points (individus) dans
l'espace et la cause principale de cette position.
2) Statistiques descriptives :
Moyenne Ecart type Analyse N
PIB 113915,3067 114061,88809 15
PibHabitant 21361,4667 31069,44860 15
TxUrbanisation 72,3133 17,51843 15
TxAlphabétisation 82,4000 11,36102 15
EspéranceVie 73,0000 4,78091 15
PopulationTotal 18190498,6000 22104707,70565 15
Superficie 765,0807 963,19870 15
Interprétation :
Le tableau de statistiques descriptives affiche la moyenne, l’écart-type, ainsi
que ce dernier permet en premier temps la justification de l’homogénéité des
variables ainsi de déterminer les valeurs manquantes des variables
De plus ce tableau permet le calcul de la moyenne et l’écart-type de chaque
6
variable
En prenant l’exemple du ‘taux d’urbanisation ‘ qui se caractérise par une
moyenne de 72.3133, présente la variable qui renvoie à la faible valeur ce qui
se traduit par une satisfaction minimale pour les pays étudiés
D’autre part la variable ‘Population total’ présente une grande satisfaction du
fait qu’il est caractérisé par la grande moyenne 18190498.6
La moyenne permet de déterminer la dispersion entre les variables, en
prenant le cas des deux variables (‘ taux d’urbanisation’, ‘Espérance de vie’)
qui se caractérise par deux moyennes presque égal ce qui nous permet de
conclure l’absence d’une grande dispersion entre eux.
En ce qui concerne l’écart-type puisque ce dernier est plus bas, plus il y ‘a
une absence de dispersion autour de la moyenne ce qui implique une
homogénéité responsable au degré de la satisfaction des individus
3) Matrice de corrélation :
PIB PIB Habitant TxUrbanisation TxAlphabétisation EspéranceVie PopulationTotal Superficie
Corrélation PIB 1,000 ,146 ,125 -,004 ,100 ,241 ,472
PibHabitant ,146 1,000 ,653 ,525 ,460 -,429 -,353
TxUrbanisation ,125 ,653 1,000 ,827 ,684 -,791 -,426
TxAlphabétisatio -,004 ,525 ,827 1,000 ,620 -,776 -,459
n
EspéranceVie ,100 ,460 ,684 ,620 1,000 -,594 -,632
PopulationTotal ,241 -,429 -,791 -,776 -,594 1,000 ,518
Superficie ,472 -,353 -,426 -,459 -,632 ,518 1,000
Interprétation :
La matrice de corrélation permet de déterminer les corrélations entre les
individus.
Ce qu’on peut conclure de notre tableau est que la majorité des corrélations
sont supérieur à 0.5 cela signifie que ces variables sont bien corrélées à titre
d’exemple la corrélation entre le taux d’urbanisation et le taux
7
d’alphabétisation qui prend la valeur 0.827 cela signifie que ces deniers sont
fortement corrélés du fait que plus la corrélation approche de 1 ou -1 plus la
force de corrélation entre les deux variables augmentent.
1) Indice KMO et test de Bartlett :
Indice de Kaiser-Meyer-Olkin pour la mesure de la qualité ,713
d'échantillonnage.
Test de sphéricité de Bartlett Khi-carré approx. 56,009
ddl 21
Signification ,000
Interprétation :
Dans notre tableau l’indice de KMO est de 0.713 ce qui entraine que cet
indice est qualifié moyennement fort cela se traduit par une
corrélation entre les variables de bonne qualité
Le test de sphéricité de BARLETT :
La valeur du khi-carré est élevé
La signification est proche de 0
Ce qui signifie que les variables sont très bon corrélés, ce qui nous donne
l’accès à continuer l’analyse
4) Variance totale expliquée :
Valeurs propres initiales Sommes extraites du carré des chargements
Composante Total % de la variance % cumulé Total % de la variance % cumulé
1 3,964 56,622 56,622 3,964 56,622 56,622
2 1,402 20,022 76,644 1,402 20,022 76,644
3 ,629 8,989 85,633
4 ,559 7,983 93,617
5 ,210 2,999 96,615
6 ,132 1,879 98,495
7 ,105 1,505 100,000
Méthode d'extraction : Analyse en composantes principales.
Interprétation :
Ce tableau de la variance total expliquée nous permet de calculer la variance
expliquée par les composantes principales de l’ACP
En premier lieu, dans le tableau de la variance total, on ne retient que les
8
valeurs propres qui sont supérieur à 1 du fait qu’i correspond à la variance
expliquée la plus élevée
Dans notre cas, en prenant la première composante principale, elle explique
56.622¨%, d’autre part la deuxième composante explique 20.022% du
pourcentage de la variance, alors la variance expliquée cumulée par les deux
premières composantes nous permet d’accumuler 76,644% de l’information
donc ces deux sont significatifs pour l’analyse d’une ACP
On peut conclure d’après ce tableau qu’on peut accéder à la réduction de ces
7 à 2 composantes du fait que la richesse d’information retenues dépasse
75%
2) Qualités de représentation :
Initiales Extraction
PIB 1,000 ,907
PibHabitant 1,000 ,569
TxUrbanisation 1,000 ,891
Tx Alphabétisation 1,000 ,782
EspéranceVie 1,000 ,674
PopulationTotal 1,000 ,769
Superficie 1,000 ,773
Méthode d'extraction : Analyse en composantes principales.
Interprétation :
Ce tableau de qualité de représentation nous permet d’obtenir les
extractions grâ ce à la sommation des cos^2 des trois composantes alors plus
la valeur de l’extraction est proche de 1 plus la variable est mieux
représentée
Ces extractions nous permettent aussi de vérifier la bonne représentation
des variables
D’après le tableau tous les extractions sont supérieures à 0,5 et la plupart
d’eux sont proche de 1 ce qui signifie qu’ils sont très bien représentés
En prenant comme exemple le PIB qui correspond à une extraction de 0.907
9
ce qui signifie que ce dernier est très bien représentés
1) Graphe de la
valeur
8) Matrice des composantes : propre :
Composante
1 2
PIB -,081 ,949
PIB Habitant ,686 ,314
TxUrbanisation ,911 ,248
Tx Alphabétisation ,879 ,098
EspéranceVie ,817 ,075
PopulationTotal -,863 ,156
Superficie -,687 ,549
Méthode d'extraction : Analyse en composantes principales.
2 composantes extraites
Interprétation :
Cette courbe représente le rapport entre la valeur propre de la composante à
son numéro, les valeurs propres récupérées jusqu’au coude correspondent
au nombre d’axes retenues
Le coude commence dans cette courbe au niveau de la deuxième composante
donc on retiendra es deux premiers composantes
La première composante explique plus de 4 valeurs propres
La deuxième composante explique plus d’une valeur propre
La troisième et la quatrième composante expliquent moins d’une
valeur propre donc elles sont rejetées
10
Interprétation :
La matrice des composantes se représente par deux composantes (la
première et la deuxième),ces derniers il faut les lever au carré et les
sommer doit être inférieur à 1, si cette condition est vérifier le point est
bien représenter graphiquement
La variable PIB : (-0.081) ^2 + (0.949) ^2 = 0.9071<1
La variable PIB habitant : (0.686) ^2 + (0.314) ^2 = 0.5691<1
Les deux variables sont bien représentées graphiquement donc leurs points
sont proches du cercle de corrélation
La première composante est expliquée par les variables suivantes :
Taux d’urbanisation, Taux d’alphabétisation, Espérance de vie,
Population total
La deuxième composante est expliquée par les variables suivantes :
PIB, PIB habitant, Superficie
8) Diagramme de composantes :
11
Interprétation :
Le tracé des composantes représente la matrice des composantes
principales par rapport aux composantes
La rotation nous permet toujours d’avoir la structure la plus sensée, les axes
initiaux sont tournés autour de l’origine jusqu’à ce qu’une autre position soit
atteinte
Sur le diagramme, on peut observer et conclure deux groupes de variables
qui présente l’absence de corrélation entre eux
Le premier groupe de composantes est constituée du PIB habitant,
Taux d’urbanisation, taux d’alphabétisation et l’Espérance de vie
Le deuxième groupe de composantes est constituée du Population
total, la superficie et le PIB
12
9) Nuage des points :
Interprétation :
L’origine des axes (0.0) correspond dans ce cas à la moyenne sur
l’échantillon
Le nuage du point convient de mettre en valeur :
Les groupes d’individus qui se caractérises par un
comportement identique
Les individus isolés
La position relative des groupes d’individus par rapport aux axes
Pour savoir la construction de chaque nuage de points on doit savoir le
plan factoriel
Le plan factoriel est une expérience qui consiste à choisir des valeurs
pour chacun des facteurs en faisant varier simultanément tous les
facteurs et se base sur un plan défini par deux axes factoriels retenus
Chaque nuage de points se compose par des variables et des individus
et construit en projetant ces derniers sir les plans factoriels
D’après notre nuage de point on peut retenir que l’Arabie saoudite se
caractérise par un comportement différant d’autre pays
13
Partie 2 : L’analyse typologique AT
1) Définition :
L’analyse typologique vise à réduire le nombre des observations en les
regroupant en des classes (ou types) homogènes et différenciés. Plus
précisément: étant donné un ensemble d’objets (qui peuvent être des
individus, des animaux, des poteries chinoises...), décrits par un certain
nombre de caractéristiques (ou variables), l’analyse typologique vise à
constituer des groupes d’objets qui soient les plus similaires possibles au sein
d’un groupe et que les groupes soient aussi dissemblables que possible, la
ressemblance ou la dissemblance étant mesurées sur l’ensemble des
caractéristiques (variables) décrivant l’objet (individu).
Objectifs :
Vérifier ou infirmer l’existence d’un certain nombre de sous-groupes au
sein d’une population.
Explorer une population pour tenter d’en retirer une typologie
satisfaisante.
Conditions d’utilisation :
Variables non corrélées.
Echelles de mesure de même forme (si intervalle)
2) Matrice de proximité :
Carré de la distance euclidienne
Observatio 1:Cas 2:Cas 3:Cas 4:Cas 5:Cas 6:Cas 7:Cas 8:Cas 9:Cas 10:Cas 11:Cas 12:Cas 13:Cas 14:Cas 15:Cas
n e1 e2 e3 e4 e5 e6 e7 e8 e9 e 10 e 11 e 12 e 13 e 14 e 15
1:Case 1 ,000 ,695 1,664 1,461 ,850 1,389 2,001 1,456 ,445 ,690 1,114 2,640 ,727 ,997 ,985
2:Case 2 ,695 ,000 1,958 1,323 2,016 1,853 1,687 1,858 ,812 1,944 1,650 2,359 2,158 1,821 1,794
3:Case 3 1,664 1,958 ,000 ,228 2,487 ,108 ,182 ,080 ,592 1,515 ,134 ,654 3,096 ,547 ,356
4:Case 4 1,461 1,323 ,228 ,000 2,138 ,355 ,169 ,374 ,621 1,428 ,231 ,535 14
3,073 ,535 ,449
5:Case 5 ,850 2,016 2,487 2,138 ,000 2,001 3,017 2,144 1,760 ,551 1,756 3,627 1,029 1,020 1,266
6:Case 6 1,389 1,853 ,108 ,355 2,001 ,000 ,470 ,038 ,493 1,240 ,080 1,130 2,446 ,283 ,200
7:Case 7 2,001 1,687 ,182 ,169 3,017 ,470 ,000 ,395 ,826 2,123 ,468 ,313 3,880 1,051 ,835
8:Case 8 1,456 1,858 ,080 ,374 2,144 ,038 ,395 ,000 ,555 1,235 ,139 1,023 2,567 ,424 ,244
9:Case 9 ,445 ,812 ,592 ,621 1,760 ,493 ,826 ,555 ,000 1,163 ,375 1,407 1,563 ,638 ,553
10:Case 10 ,690 1,944 1,515 1,428 ,551 1,240 2,123 1,235 1,163 ,000 ,949 2,694 1,121 ,602 ,503
11:Case 11 1,114 1,650 ,134 ,231 1,756 ,080 ,468 ,139 ,375 ,949 ,000 1,030 2,286 ,179 ,096
12:Case 12 2,640 2,359 ,654 ,535 3,627 1,130 ,313 1,023 1,407 2,694 1,030 ,000 4,334 1,692 1,459
13:Case 13 ,727 2,158 3,096 3,073 1,029 2,446 3,880 2,567 1,563 1,121 2,286 4,334 ,000 1,743 1,874
14:Case 14 ,997 1,821 ,547 ,535 1,020 ,283 1,051 ,424 ,638 ,602 ,179 1,692 1,743 ,000 ,081
15:Case 15 ,985 1,794 ,356 ,449 1,266 ,200 ,835 ,244 ,553 ,503 ,096 1,459 1,874 ,081 ,000
Il s'agit d'une matrice de dis similarité
Interprétation :
La matrice de proximité se caractérise par des valeurs qui présentent les
distances existantes entre les variables, ce qu’on peut conclure que plus cette
distance est faible entre deux variables plus on peut facilement les regrouper
En prenant exemple de notre matrice de proximité, la case 8 avec la case 3 se
caractérise par une valeur de 0.080 qui est très faible ce qui entraine que ces
derniers peuvent être regroupés facilement
3) Distance de Ward :
15
Planning des agglomérations
Etape de première apparition du
Cluster combiné cluster
Etape Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Etape suivante
1 6 8 ,038 0 0 3
2 14 15 ,081 0 0 6
3 3 6 ,094 0 1 4
4 3 11 ,118 3 0 6
5 4 7 ,169 0 0 7
6 3 14 ,291 4 2 10
7 4 12 ,424 5 0 10
8 1 9 ,445 0 0 11
9 5 10 ,551 0 0 12
10 3 4 ,698 6 7 13
11 1 2 ,753 8 0 13
12 5 13 1,075 9 0 14
13 1 3 1,336 11 10 14
14 1 5 1,942 13 12 0
Interprétation :
La distance de Ward permet d’étudier la proximité pour savoir les classes
homogènes d’autre hétérogènes.
Les variables qui se caractérise par une faible distance sont homogènes et sont
rassemblés par ordre croissant
On peut déterminer d’après ceci la qualité de typologie en tant compte dernier
coefficient et un autre coefficient du planning d’agglomérations
On prend le dernier coefficient qui prend la valeur 1.942
On prend le 8ème coefficient qui prend la valeur 0,445
La qualité de typologie = (dernier coefficient – 8ème coefficient) /dernier coefficient
= (1.942-0.445) /1.942
= 77.08%
Alors les variables se caractérisent par une qualité typologique fort ce qui montre une fort
homogénéité entre les variables
16
4) Le diagramme :
Interprétation :
Ce diagramme présente tout simplement le résultat des classes concernés
ainsi que les agrégations
5) Le dendrogramme :
17
Interprétation :
Le dendrogramme a pour objectif de :
Le choix du nombre de groupes en se basant sur la méthode
hiérarchique
Détecter le saut le plus important au niveau des indices
d’agrégation
Description des groupes basée sur les variables de classification
On cherche d’après ce diagramme la grande distance possible entre
deux étapes qui se suivent
Notre diagramme se caractérise par plusieurs étapes qui présente un
saut important à titre d’exemple le 12ème et la 1ère étape, ainsi que le 12ème et
le 13ème .
18
IV. conclusion
Notre rapport qui se situe dans le cadre d’un contrô le de
l’analyse de données supervisé par Mr JAHIDI, et qui
consiste à mener une étude d’une création des entreprises
par plusieurs pays En effet cette dernière a passé par
plusieurs étapes qui se sont concrétiser bien évidemment
grâ ce au dur labeur et travail en collaboration qui a porté
ses fruits.
Nous avons ainsi bien pu gérer la répartition des tâ ches
mais également la synchronisation de notre travail.
L’utilisation du logiciel SPSS nous a également beaucoup
aidé dans notre mission.
On a beaucoup bénéficié de ce dernier ainsi que du travail
en groupe qui nous ont bien aidé à appuyer sur nos
connaissances sur le cours d’analyse des données et à les
améliorer.
19