PDF 1
PDF 1
DÉPARTEMENT DE MATHÉMATIQUES
MASTER en Mathématiques
Par
Elhella Asma
Titre :
Juillet 2023
Dédicace
Je déicide ce travail
«Mathématiques»
i
REMERCIEMENTS
Avant tous, je remercie Allah qui ma donné la force, le courage et la patience pour
réaliser ce mémoire.
J’adresse mes remerciements aux membres du Jury qui ont accepté d’examiner ce
mémoire en lui apportant de l’intérêt.
ii
Table des matières
Remerciements ii
Introduction 1
iii
1.6.2 Analyse du nuage des individus . . . . . . . . . . . . . . . . . 11
2.1.1 FactoMinR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.2 FactoExtra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Ggfortify . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.4 Corrplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.5 Scatterplot3d . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.6 Plot3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
iv
Table des matières
v
Table des …gures
vi
Table des matières
vii
Liste des Figures
3.20 Plotellipses(mca) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
viii
Introduction
L
’analyse en correspondance multiple est une méthode statistique utilisée
pour explorer les relations entre plusieurs ensembles de variables catégo-
rielles. Egalement connue sous le nom d’ACM (Analyse Factorielle des Correspon-
dances Multiples), elle permet de visualiser et d’interpréter les relations entre les
variables qualitatives dans un espace multidimensionnel.
L’analyse en correspondance multiple est souvent utilisée dans des domaines tels que
la sociologie, la psychologie, le marketing et la bioinformatique, où les données sont
souvent de nature qualitative. Elle vise à identi…er les associations et les tendances
dans les données, en mettant en évidence les similarités et les di¤érences entre les
catégories de variables. L’analyse en correspondance multiple repose sur des calculs
de similarité et de dissimilarité entre les catégories de variables, ainsi que sur des
techniques de réduction de dimension Décomposition en valeurs singulières. Elle per-
met de synthétiser des informations complexes et d’obtenir des insights signi…catifs
à partir de données qualitatives. L’analyse en correspondance multiple (ACM) a été
développée dans les années 1970 par le statisticien français Jean-Paul Benzécri. Il a
introduit cette méthode comme une extension de l’analyse factorielle des correspon-
dances simples (AFC), qui avait été proposée par Jean-Paul Benzecri et Jean-Jacques
Droesbeke.
1
Introduction
. En ligneLe Roux, B., & Rouanet, H. (2010). Analyse des correspondances multiples.
SAGE Publications Ltd.
. Esco…er, B., & Pagès, J. (1994). Analyse factorielle multiple (paquet AFMULT).
Statistiques informatiques et analyse de données, 18(1), 121-140.
2
Introduction
3
Chapitre 1
4
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
[Link] j :::p
1
.. ..
. .
i Xij
.. ..
. .
n
On notera :
X
K= kj
j
et fm1 ; m2 ; :::; mk g l’ensemble des modalités possibles. On construit les variables qua-
litatives J telles que la première variable j1 utilise l’ensemble de modalités fm1 ; m2 ; :::; mk1 g ;
j2 utilise l’ensemble de modalités fk1 + 1; k1 + 2; :::; k1 + k2 g ; et ainsi de suite.
5
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
Il est possible d’inclure une variable quantitative dans l’analyse, à condition de rem-
placer ses valeurs numériques en plage de valeur, a…n de la convertir en variable
catégorielle.
X
Z= ;
IK
Dr = diag (r) ;
Dc = diag (c) ;
M = P Qt
6
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
facteurs sont les coordonnées des individus (ligne) ou variables (colonne) sur chacun
des axes factoriels. Les coordonnées des individus dans ce nouvel espace vectoriel
sont données par la formule suivante :
F = Dr 1=2 P
La i-ième ligne de F contient les coordonnées du i-ième individu dans l’espace fac-
toriel, tandis que les coordonnées des variables dans le même espace factoriel sont
données par :
G = Dc 1=2 Q t
:
L’ACM est une méthode générale qui s’applique à tout tableau dans lequel un en-
semble d’individus est décrit par des variables qualitatives. Elle n’appartient donc
pas à un champ disciplinaire particulier. L’ACM (Analyse des Correspondances Mul-
tiples) peut être utilisée chaque fois que l’on souhaite analyser des données catégo-
rielles et explorer les relations entre les di¤érentes variables pour obtenir des informa-
tions et des insights. l’ACM est une méthode d’analyse statistique largement utilisée
dans divers domaines. Voici quelques domaines d’application courants de l’ACM :
1. Sciences sociales : L’ACM est souvent utilisée dans les sciences sociales pour
analyser des données catégorielles telles que les enquêtes, les questionnaires,
les données sociodémographiques, les préférences des consommateurs, les opi-
nions politiques, etc. Elle permet de mettre en évidence les relations entre les
di¤érentes catégories de variables et d’explorer la structure des données.
2. Marketing et études de marché : L’ACM est utilisée pour analyser les pré-
férences des consommateurs, les comportements d’achat, les caractéristiques
7
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
des produits, les segments de marché, etc. Elle permet de comprendre les re-
lations entre les di¤érentes variables catégorielles et d’identi…er les pro…ls de
consommateurs ou de produits.
8
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
Un individu est représenté par l’ensemble de ses réponses, aussi appelé pro…l de ré-
ponse. L’étude porte sur la variabilité de ces pro…ls de réponse. Comme dans toute
analyse factorielle, cette variabilité est décomposée selon une suite de S variables
synthétiques (notées fFs ; s = 1; :::; sg ; ces Fs sont retranscrites en tant que colonnes
d’une matrice F ). Ces variables synthétiques sont quantitatives et permettent des
représentations graphiques et l’utilisation de méthodes d’analyse adaptées aux va-
riables quantitatives. Seules les premières colonnes de F sont retenues en général,
celles-ci correspondant aux dimensions de l’espace factoriel qui regroupent le plus
d’inertie.
La liaison entre deux variables qualitatives s’étudie au travers des associations entre
leurs modalités. Par exemple, un élément de la description de la liaison entre les
variables couleur des yeux et couleur des cheveux est : les personnes qui ont les
cheveux blonds ont plutôt les yeux bleus. En présence d’un ensemble de variables
qualitatives, on cherche donc les associations entre toutes les modalités. On attend de
l’ACM une représentation des modalités dans laquelle les modalités qui s’associent
entre elles sont proches. Les remarques concernant F restent valables pour G.
De façon intuitive, et comme dans toute analyse factorielle, l’ACM consiste à projeter
chacun des deux nuages sur une suite d’axes orthogonaux d’inertie maximum (cela
correspond mathématiquement à l’étape de décomposition en valeurs singulières).
Dans RI , la quantité maximisée est la moyenne des carrés des rapports de corrélation.
9
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
1X 2
(Fs ; j) :
J j
2
avec Rapport de corrélation (Fs ; j) :
Les dimensions de l’ACM peuvent donc être considérées comme des variables syn-
thétiques. Les valeurs de Fs sont les coordonnées des individus sur l’axe de rang s
dans Rk : Il en résulte que les individus qui ont beaucoup de modalités en com-
mun sont aussi proches que possible au contraire des individus qui ont peu de (voire
aucune) modalités en commun qui sont aussi séparés que possible.
La combinaison de deux de ces axes fournit une représentation plane, aussi appelée
"plan factoriel". En pratique, le premier plan factoriel su¢ t pour avoir une repré-
sentation graphique simple.
Pour un axe donné, a un coe¢ cient près, un individu est au barycentre des modalités
qu’il possède et une modalité est au barycentre des individus qui la possèdent.
10
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
Un tableau disjonctif complet est une matrice binaire qui représente les données
catégorielles, où chaque ligne représente un individu et chaque colonne représente
une variable catégorielle, indiquant la présence ou l’absence de chaque catégorie
pour chaque individu.
Le tableau disjonctif complet (TDC) est pré-traité avant d’être analysé en ACM.
11
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
nk
Pk =
n
La proximité entre deux individus se mesure avec une distance Euclidienne pondérée.
12
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
X
K
Pk
2 0
d (i; i ) = (Zik Zi0 k )2
k=1
P
XK
Pk Yik Yi0 k
2
=
k=1
P Pk Pk
1 X 1
K
= (Yik Yi0 k )2
P k=1 Pk
avec
nk
Pk =
n
Yik
Zk =
Pk
où pour rappel :
8
>
< Yik = 1 si l’individu i possède la modalité k
>
: Yik = 0 sinon
13
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
1 X 1
K
2 0
d (i; i ) = (Yik Yi0 k )2
P k=1 Pk
Ce qui implique que individus sont di¤érents si ils n’ont pas les mêmes modalités,
avec plus de d’importance accordée aux di¤érences sur les modalités rares.
individus.
14
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
Xn
1 2
I (Z) = d (i; o)
n
i=1 | {z }
inertie de i
!
X
n
1 XK
Yik 1
=
i=1
np k=1
Pk n
K
= 1
P
car
X
K
Pk
2
d (i; o) = (Zik )2
k=1
P
XK
Pk Yik
2
= 1
k=1
P Pk
1 X Yik
K
= 1
P k=1 Pk
–
XK
1
I (Z) = (1 Pk )
P {z }
k=1 |
contribution de k
15
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
En ACM l’axe s est orthogonal à tout axe t(t < s) et est le plus lié aux variables
2
qualitatives au sens du :
p
X
2
F:s = arg max (F; X:j )
F 2Rn
j=1
) F:s est une nouvelle variable synthétique quantitative résumant au mieux les
variables qualitatives initiales.
Nuage de K modalités de Rn :
16
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
X
n
d2 (k; k 0 ) = (Zik Zik0 )2
i=1
X
n
Yik Yik0
2
=
i=1
Pk Pk 0
pk + pk0 2pk pk0
=
pk pk 0
où pour rappel :
8
>
< Yik = 1 si l’individu i possède la modalité k
>
: Yik = 0 sinon.
modalités.
17
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
p
1X 2
s = (F; X:j )
p j=1
) s 2 [0; 1] :
– L’inertie totale est :
K P
I (Z) = 1 + ::: + r = ;
P
où
r = min (n 1; k p)
18
Chapitre 1. Notions de base sur l’Analyse des Correspondances Multiples
) Les cos2 sont petits...ce qui est attendu car beaucoup de dimensions.
kj
X 2
(F:s ; X:j )
Ctr (j) = CT R (k) =
k=1
p
2
(F:s ; X:j )
Ctr (j) =
p s
19
Chapitre 2
Outils Mathématiques et
Informatiques pour l’exécution de
l’Analyse des Correspondances
Multiples
Dans les parties qui suivent, nous présenterons la partie application de l’ACM. Tous
nos codes et visualisations sont exécutés sur le logiciel RStudio, pour cette raison
nous e¤orçons de présenter quelques bibliothèques indispensables pour la réalisation
d’l’ACM. Ainsi que la méthode svd en appliquant nos codes sur un cas pratique
2.1.1 FactoMinR
20
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
des données. FactoMinR o¤re une large gamme de méthodes pour e¤ectuer des ana-
lyses factorielles, telles que l’analyse en composantes principales (PCA), l’analyse
des correspondances multiples (MCA) et d’autres variantes.
Installation de FactoMinR
Chargement de FactoMinR
. Pour e¤ectuer une MCA avec FactoMinR, utilisez la fonction MCA() en spéci-
…ant la matrice de données et les options nécessaires, telles que la pondération
des variables ou l’inclusion des individus supplémentaires.
. La fonction summary() peut également être utilisée pour a¢ cher les résultats
de la MCA, y compris les contributions des variables et des individus, ainsi que
les graphiques.
2.1.2 FactoExtra
21
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
des données. FactoExtra fournit des outils avancés pour e¤ectuer des analyses fac-
torielles, tels que l’analyse en composantes principales (PCA), l’analyse des corres-
pondances multiples (MCA) et d’autres méthodes.
Installation de FactoExtra
Chargement de FactoExtra
2.1.3 Ggfortify
22
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
de visualiser facilement les résultats de divers modèles, tels que les modèles de régres-
sion linéaire, les modèles de régression logistique, les modèles de séries temporelles
et bien d’autres encore.
Installation de Ggfortify
Chargement de Ggfortify
La bibliothèque ggfortify n’est pas spéci…quement conçue pour l’Analyse des Corres-
pondances Multiples (ACM ). Cependant, elle peut être utilisée pour visualiser les
résultats de l’ACM en combinant ggfortify avec d’autres bibliothèques spéci…ques à
l’ACM , telles que FactoMineR.
Voici comment vous pouvez utiliser ggfortify pour visualiser les résultats de l’ACM :
. Utilisez la bibliothèque F actoM ineR pour e¤ectuer l’ACM sur vos données
catégorielles.
. La fonctionM CA() de F actoM ineR peut être utilisée pour e¤ectuer l’ACM ,
en spéci…ant la matrice de données et les options appropriées.
23
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
. Une fois que vous avez converti les résultats de l’ACM en un objet ggplot2, vous
pouvez utiliser les fonctionnalités de ggplot2 pour personnaliser la visualisation
selon vos besoins.
. Par exemple, vous pouvez ajouter des titres, modi…er les couleurs, ajuster les
échelles, ajouter des étiquettes d’axes, etc.
. Par exemple, vous pouvez utiliser les fonctions de FactoMineR pour ajouter
les contributions des variables et des individus, visualiser les liens entre les
catégories, ou a¢ cher les cercles de corrélation.
2.1.4 Corrplot
La bibliothèque corrplot est une bibliothèque R qui permet de visualiser facilement les
matrices de corrélation. Elle o¤re des fonctionnalités pour représenter graphiquement
les corrélations entre les variables d’un ensemble de données.
24
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Installation de Corrplot
Chargement de Corrplot
La bibliothèque corrplot n’est pas spéci…quement conçue pour être utilisée avec
l’Analyse des Correspondances Multiples (ACM). Cependant, elle peut être utili-
sée pour visualiser les matrices de corrélation qui peuvent être obtenues à partir des
résultats de l’ACM.
. Avec la matrice de corrélation obtenue, vous pouvez utiliser corrplot pour vi-
sualiser les corrélations entre les catégories des variables.
25
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
2.1.5 Scatterplot3d
La bibliothèque scatterplot3d est une bibliothèque R qui permet de créer des gra-
phiques de dispersion en trois dimensions. Elle o¤re des fonctionnalités pour visuali-
ser des données tridimensionnelles et explorer les relations entre plusieurs variables.
Installation de Scatterplot3d
Chargement de Scatterplot3d
26
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
La bibliothèque scatterplot3d n’est pas spéci…quement conçue pour être utilisée avec
l’Analyse des Correspondances Multiples (ACM). Cependant, elle peut être utilisée
pour visualiser les résultats de l’ACM en a¢ chant des graphiques de dispersion en
trois dimensions.
27
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
. Par exemple, vous pouvez ajouter des étiquettes aux individus en utilisant la
fonction text() et spéci…er les options appropriées. Vous pouvez également ajou-
ter des ellipses de con…ance en utilisant la fonction ellipse() pour représenter
les groupes d’individus.
2.1.6 Plot3D
La bibliothèque plot3D est une bibliothèque R qui o¤re des fonctionnalités pour la
visualisation de données en trois dimensions. Elle permet de créer des graphiques en
3D interactifs, o¤rant une perspective plus complète sur les données et permettant
d’explorer les relations entre plusieurs variables.
Installation de Plot3D
28
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Chargement de Plot3D
La bibliothèque plot3D n’est pas spéci…quement conçue pour être utilisée avec l’Ana-
lyse des Correspondances Multiples (ACM). Cependant, elle peut être utilisée pour
visualiser les résultats de l’ACM en a¢ chant des graphiques en 3D pour les coordon-
nées des individus ou les variables.
Obtenez les coordonnées des individus ou des variables à partir des résul-
tats de l’ACM
29
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
. Utilisez les fonctions disponibles dans plot3D pour créer des graphiques en 3D
à partir des coordonnées des individus ou des variables.
. Utilisez la fonction surface3D() pour créer une surface en 3D à partir des co-
ordonnées des individus ou des variables.
Personnalisez le graphique en 3D
. Par exemple, vous pouvez modi…er les couleurs, les étiquettes d’axe, les titres,
les échelles, etc.
. Par exemple, vous pouvez ajouter des étiquettes aux points en utilisant la fonc-
tion text3D(), ajouter des lignes de régression en utilisant la fonction plane3D()
ou ajouter des légendes en utilisant la fonction legend3D().
30
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Nous allons présenter dans ce qui suit un cas pratique pour expliquer les étapes
et les détails mathématiques de l’ACM dans un aspect informatique. Pour cette
raison nous allons proposer un tableau de six individus et 3 variables catégorielles
(qualitatives) avec 9 catégories (modalités), une taille réduite nous permettra de
facilité les illustration au fur et au mesure avec les résultats théoriques
31
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Les valeurs singulières de la matrice A sont les racines carrées des valeurs propres
de la matrice At A ou de la matrice AAt Ces valeurs sont généralement ordonnées
en ordre décroissant. Les valeurs singulières représentent l’importance relative des
di¤érentes composantes de la matrice.
32
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
. Tout d’abord, les données catégorielles sont représentées sous forme de tableau
disjonctif complet où les lignes représentent les individus et les colonnes repré-
sentent les catégories des variables.
33
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
. est une matrice diagonale contenant les valeurs singulières, qui représentent
l’importance relative des axes factoriels.
. Les distances entre les individus dans l’espace factoriel peuvent être utilisées
pour e¤ectuer des analyses de similarité ou de dissimilarité, telles que des
classi…cations ou des analyses de regroupement.
Dans cette partie, nous allons exécuter le code R de SVD sur le cas des 6 individus
mentionné en haut
34
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Algorithme - svd
Cet algorithme e¤ectue une codi…cation des variables catégorielles du tableau cité
plus haut et utilise la décomposition en valeurs singulières (SVD) pour analyser les
relations entre les catégories. Ensuite, il présente les résultats et trace un diagramme
de variance expliquée pour illustrer l’importance relative des caractéristiques prin-
cipales. L’algorithme implémenté dans le code fourni peut être divisé en plusieurs
étapes :
1. Dé…nition des vecteurs : Les vecteurs Fruit, Légume, et Viande sont créés
pour désigner les catégories correspondantes.
35
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Code R - svd
1. # Vecteurs
2. # Codage
. for (i in 1 :num_categories) {
36
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
. }
. U <- svd_result$u
. V <- svd_result$v
. print(disj_table)
. class(disj_table)
. dim(disj_table)
. print(U)
. print(V)
. print(sigma)
. print(cordonnées_individus)
. print(variance_expliquee)
. barplot(variance_expliquee, col="pink",
37
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Sorties - svd
2. Matrice U , V et
38
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
39
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Le package FactiminR en R fournit des outils puissants pour e¤ectuer une ACM et
explorer les relations entre les variables catégorielles. Avant de commencer, spéci…ez-
vous d’avoir installé le package FactominR comme on a bien précisé dans la section
précedente
Déscription
E¤ectue une analyse des correspondances multiples (MCA) avec des individus supplé-
mentaires, des variables quantitatives supplémentaires et des variables catégorielles
supplémentaires. E¤ectue également une analyse spéci…que des correspondances mul-
tiples avec des catégories supplémentaires et des variables catégorielles supplémen-
taires. Les valeurs manquantes sont traitées comme un niveau supplémentaire, les
catégories qui sont rares peuvent être ventilées
40
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Usage
Arguments
. excl : vecteur indiquant les index des catégories "junk" (la valeur par défaut
est NULL), il peut s’agir d’un vecteur des noms des catégories ou d’un vecteur
des index dans la table de données disjonctives
. row.w : un poids de ligne facultatif (par défaut, un vecteur de 1 pour des poids
de ligne uniformes) ; les poids sont donnés uniquement pour les individus actifs
41
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Valeurs
. eig : une matrice contenant toutes les valeurs propres, le pourcentage de va-
riance et le pourcentage de variance cumulé
. var : une liste de matrices contenant tous les résultats pour les variables actives
(coordonnées, carré cosinus, contributions, [Link], carré rapport de corrélation)
. ind : une liste de matrices contenant tous les résultats pour les individus actifs
(coordonnées, cosinus carré, contributions)
. [Link] : une liste de matrices contenant tous les résultats pour les individus
supplémentaires (coordonnées, cosinus carré)
. [Link] : une liste de matrices avec tous les résultats pour les variables caté-
gorielles supplémentaires (coordonnées de chaque modalité de chaque variable,
42
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
cosinus carré et [Link] qui est un critère avec une distribution normale, rapport
de corrélation carré)
Remarque :
MCA() renvoie les graphiques des individus et des catégories et le graphique avec
les variables. Les tracés peuvent être améliorés en utilisant l’argument autolab, en
modi…ant la taille des étiquettes ou en sélectionnant certains éléments grâce à la
[Link] fonction.
Nous allons reprendre le cas de six individus mentionné plus haut pour appliquer
l’objet MCA() dans le but de bien expliquer le rôle du ACM dans la réduction de la
dimensionnalité et a¢ cher les projections graphiques pour comprendre les relations
entre les individus et les catégories. La fonction MCA() e¤ectue une Analyse des
Correspondances Multiples sur les variables catégorielles des individus. Elle renvoie
un objet mca contenant les résultats de l’analyse. Vous pouvez accéder à di¤érentes
propriétés de l’objet MCA() pour obtenir des informations sur les résultats de l’ana-
lyse.
Algorithme - mca
1. Création d’un dataframe nommé "data" avec trois colonnes : "Fruit", "Lé-
gume" et "Viande". Les valeurs des colonnes sont désignées à l’aide de la fonc-
tion [Link]().
43
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Code - mca
1. # Créeation de dataframe
. View(data)
2. # Instalation de packages
. [Link]("FactoMineR")
. [Link]("factoextra")
44
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
. [Link]("ggfortify")
. [Link]("corrplot")
3. # Chargement de bibliothèques
. library("FactoMineR")
. library(factoextra)
. library("ggfortify")
. library(corrplot)
4. # Application de mca
Sorties - mca
Les trois graphiques suivants est une représentation visuelle qui a¢ che les variables
catégorielles et les observations d’un jeu de données dans un espace bidimensionnel,
permettant d ’explorer leurs relations.
45
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Dans cette partie nous a¢ cherons les valeurs numériques relatives à l’exécution de
MCA() ensuite les visualisations graphiques relatives à ces derniers avec une expli-
cation de chaque visualisation
46
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
4. A¢ chage des carrés des corrélations entre les variables et les dimensions prin-
cipales à l’aide de mca$var$eta2.
6. A¢ chage des coordonnées des variables dans le plan factoriel à l’aide de mca$var$coord.
7. Visualisation des variables dans le plan factoriel en utilisant les carrés des co-
sinus des variables ( cos2) à l’aide de la fonction fviz_mca_var(). Les couleurs
des points représentent les carrés des cosinus des variables.
8. A¢ chage des coordonnées des individus dans le plan factoriel à l’aide de mca$ind$coord.
10. A¢ chage des contributions des variables à chaque dimension principale à l’aide
de mca$var$contrib.
47
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
13. A¢ chage des carrés des cosinus des variables à l’aide de mca$var$cos2.
14. Visualisation des carrés des cosinus des variables à l’aide de la fonction corr-
plot().
15. Calcul des sommes des carrés des cosinus des variables pour les deux premières
dimensions principales à l’aide de rowSums(cos2_var).
16. Visualisation des carrés des cosinus des variables pour les deux premières di-
mensions principales à l’aide de fviz_cos2().
17. Visualisation avec ellipses : Une visualisation avec des ellipses, où les individus
sont colorés selon un groupe et des ellipses de concentration sont ajoutés pour
visualiser la dispersion des groupes.
1. # visualisation 1
. mca$eig
. # Avec poucentages
barplot([Link][, 2],
[Link] = 1 :nrow([Link]),
col ="steelblue")
. # Avec pourcentages
48
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
2. # Visualisation 2
. mca$var$eta2
repel = TRUE,
3. # Visualisation 3
. mca$var$coord
repel = TRUE,
ggtheme = theme_minimal())
4. # Visualisation 4
. mca$ind$coord
ggtheme = theme_minimal())
5. # Visualisation 5
. mca$var$contrib
. # Dim 1
. # Dim 2
6. # Visualisation 6
49
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
. mca$var$cos2
. corrplot(var$cos2, [Link]=FALSE)
7. # Visualisation 7
. rowSums(cos2_var)
1. Valeurs propres
50
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
51
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Fig. 2.5 –Diagramme en barres des variances expliquées par les dimensions
52
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
53
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
54
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
4. MCA - Biplot : Est une représentation graphique utilisée dans une analyse
des correspondances multiples (MCA) pour visualiser simultanément les in-
dividus et les variables sur les axes MCA. Il combine les informations sur la
structure des individus et la structure des variables dans un même graphique.
Dans un graphique "MCA - Biplot", les individus sont représentés par des
points et les variables sont représentés par des ‡èches. La position des indi-
vidus sur le graphique indique leur relation avec les axes MCA, tandis que la
direction et la longueur des ‡èches représentent la contribution des variables
à chaque axe. Plus précisément, la position des individus est déterminée par
leurs coordonnées sur les axes MCA. Les individus qui sont proches les uns
des autres sont similaires en termes de pro…ls de variables, tandis que ceux
qui sont éloignés sont di¤érents. Les variables sont représentées par des ‡èches
qui indiquent leur direction et leur amplitude. Les variables qui ont une forte
contribution à un axe donné sont représentées par des ‡èches plus longues et
alignées dans la direction de l’axe. Il permet de comprendre la structure des
données, d’identi…er les variables qui sont les plus in‡uentes sur chaque axe
55
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
et de détecter les similarités et les dissimilarités entre les individus. Cette re-
présentation graphique est utile pour l’interprétation et l’analyse des résultats
d’une analyse en principales composantes multiples.
Fig. 2.10 – Contributions relatives des variables ou des individus aux dimensions
principales
56
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
Fig. 2.11 – Contributions relatives des variables ou des individus aux dimensions
principales Dim 2
57
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
de la MCA.
58
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
59
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
4. names(mca) : A¢ che les noms des caractéristiques de l’objet MCA, tels que
"eig" pour les valeurs propres, "var" pour les informations relatives aux va-
riables, "ind" pour les informations relatives aux individus, etc.
60
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
61
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
dus (ou observations) dans l’ACM. Elle peut inclure des éléments tels que les
coordonnées factorielles des individus, les contributions des individus aux di-
mensions principales, les cosinus carrés des individus (mesurant la qualité de
leur représentation), etc.
62
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
63
Chapitre 2. Etapes de l’Analyse des Correspondances Multiples
valeurs singulières
64
Chapitre 3
Dans cette partie nous allons appliquer l’ACM sur des données réelles CleanCreditS-
coring. Le jeu de données est téléchargeable avec le lien suivant :
[Link]
Clean Credit Scoring, ou Clean Credit Analysis, est une application qui utilise des
techniques avancées d’analyse et de modélisation des données pour évaluer la sol-
vabilité d’un individu et fournir une évaluation complète de son pro…l de crédit. Il
est couramment utilisé par les institutions …nancières, telles que les banques et les
sociétés de prêt, pour prendre des décisions éclairées concernant les approbations
de crédit, les taux d’intérêt et les conditions de prêt. Le fonctionnement du Clean
Credit Scoring se résume en la collecte de données, l’ingénierie des fonctionnalités,
le développement de modèles l’évaluation du modèle et en …n la prise de décision.
Clean Credit Scoring o¤re une approche basée sur les données pour l’évaluation du
risque de crédit, permettant aux institutions …nancières de prendre des décisions de
crédit plus précises et objectives. Il aide à réduire les défauts de crédit, à identi…er
65
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
Nous présenterons dans ce chapitre une application de l’ACM sur les variables caté-
gorielles extraites du jeu de données CleanCreditScoring
[Link]
-Nous allons charger et a¢ cher le tableau sur RStudio avec les deux instructions
suivantes :
> V iew(df )
66
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
> dim(df )
[1]4446 27
-Nous appliquons l’instruction suivante pour a¢ cher les noms des colonnes
> colnames(df )
> str(df )
67
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
$ Income : int 129 131 200 182 107 214 125 80 107 80 ...
$ Amount : int 800 1000 2000 900 310 650 1600 200 1200 1200 ...
$ Price : int 846 1658 2985 1325 910 1645 1800 1093 1957 1468 ...
$ seniorityR : chr "sen (8,14]" "sen (14,99]" "sen (8,14]" "sen (-1,1]" ...
$ timeR : chr "time (48,99]" "time (48,99]" "time (24,36]" "time (48,99]" ...
$ ageR : chr "age (25,30]" "age (50,99]" "age (40,50]" "age (0,25]" ...
$ expensesR : chr "exp (60,80]" "exp (40,50]" "exp (80,1e+04]" "exp (60,80]" ...
$ incomeR : chr "inc (110,140]" "inc (110,140]" "inc (190,1e+04]" "inc (140,190]" ...
$ assetsR : chr "asset (-1,0]" "asset (-1,0]" "asset (0,3e+03]" "asset (0,3e+03]" ...
$ debtR : chr "debt (-1,0]" "debt (-1,0]" "debt (-1,0]" "debt (-1,0]" ...
68
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
$ …nratR : chr "…nr (90,100]" "…nr (50,70]" "…nr (50,70]" "…nr (50,70]" ...
$ savingsR : chr "sav (4,6]" "sav (4,6]" "sav (0,2]" "sav (6,99]" ...
-Dans le but d’appliquer la méthode MCA, nous allons séparer les données quali…-
catives en utilisant le code suivant
[1]4446 5
[1]"Status""Home""M arital""Records""Job"
69
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Nous allons appliquer l’objet ACM () directement sur df _character. Trois vi-
sualisations s’a¢ chent automatiquement sans les appeller
install:packages("corrplot")
library(corrplot)
instal:packages("F actoExtra")
library(f actoextra)
70
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
71
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Nous a¢ chons avec l’instruction acm$eig un tableau qui contient les valeurs
propres de la décompositions sdv, les pourcentages des variaces expliquées des
composantes principales ainsi que les cumules correspondants
72
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
73
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Nous a¢ chons avec l’instruction acm$var$eta2 un tableau qui contient les les
coordonnées des variables ; Status, Home, Marital,Records et Job dans unique-
ment 5 dimensions par défaut au lieux des 14 coordonnées dans les14 dimen-
sions.
. Nous exécutons le code R suivant pour la projection des variables dan un plan
de Dim 1 (11; 91%) et Dim 2 (10; 2%) selon les coordonnées en haut
ggtheme = theme_minimal()
74
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Nous présentons ici un code R pour projeter les variables dans trois dimensions
Dim1 (11; 91%), Dim 2 (10; 2%) , et Dim 3 (8:41%)
install:packages("scatterplot3d")
library(scatterplot3d)
75
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Ce code est executé pour avoir une carte factorielle des variables en trois di-
mensions classi…cative
install:packages("plot3D")
library(plot3D)
. Nous a¢ chons avec l’instruction acm$var$coord un tableau qui contient les co-
ordonnées des catégories ; bad, good, ignore,other, owner,parents,priv,rent,divorced,
married, separated, single,widow,no rec, yes_rec, …xed, freelance, others et par-
tiime dans uniquement 5 dimensions par défaut au lieux des 14 coordonnées
dans les14 dimensions.
76
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Nous exécutons le code R suivant pour la projection des catégories dan un plan
de Dim 1 (11; 91%) et Dim 2 (10; 2%) selon les coordonnées en haut
. library(f actoextra):
77
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Nous présentons ici un code R pour projeter les catégories dans trois dimensions
Dim1 (11; 91%), Dim 2 (10; 2%) , et Dim 3 (8:41%)
install:packages("scatterplot3d")
library(scatterplot3d)
78
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Ce code est executé pour avoir une carte factorielle des catégories en trois
dimensions classi…cative
install:packages("plot3D")
library(plot3D)
79
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
f vizmcabiplot(mca; repel = T RU E;
80
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
ggtheme = thememinimal())
. Graphique Biplot (individus et catégories) où les individus sont liés par les
lignes bleu
. Nous présentons ici un code R pour projeter les individus dans trois dimensions
Dim1 (11; 91%), Dim 2 (10; 2%) , et Dim 3 (8:41%)
install:packages("scatterplot3d")
library(scatterplot3d)
81
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Ce code est executé pour avoir une carte factorielle des individus en trois
dimensions classi…cative
install:packages("plot3D")
library(plot3D)
82
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
83
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
84
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Vous pouvez visualiser le cos2 des catégories de lignes sur toutes les dimensions à
l’aide du package corrplot
. library("corrplot"):
corrplot(varcos2, [Link]=FALSE).
. Visualiser de cos2
85
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
86
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
Others, Divorced, Ignore et Widow ne sont pas très bien représentées par les
deux premières dimensions. Cela implique que la position des points correspon-
dants sur le nuage de points doit être interprétée avec une certaine prudence.
Une solution dimensionnelle plus élevée est probablement nécessaire.
87
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. plotellipses(mca)
.
L’ACM est une technique statistique qui permet de réduire la dimensionnalité des
données en les projetant sur un espace de variables moins nombreuses appelées les
composantes principales.
Son rôle principal est de révéler la structure sous-jacente des données en identi…ant
les relations et les corrélations entre les variables. En utilisant la réduction de dimen-
sionnalité, l’ACM permet de simpli…er les données tout en conservant une grande
partie de l’information. Cela facilite la visualisation et l’interprétation des données,
88
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
Dans le contexte de la classi…cation, l’ACM peut être utilisé pour extraire les carac-
téristiques les plus discriminantes des données. Les composantes principales obtenues
à partir de l’ACM peuvent servir de nouvelles variables qui capturent e¢ cacement
les variations les plus importantes dans les données d’origine. Ces nouvelles variables
peuvent ensuite être utilisées comme entrées pour des algorithmes de classi…cation
tels que les arbres de décision, les réseaux de neurones, les machines à vecteurs de
support (SVM) ou d’autres méthodes de classi…cation.
Dans la section suivantes nous allons exécuter deux modèles de machine learnig et
un modèle de deep learning sur les sorties de l’ACM en créant deux Dataframes
mca:machine et mca:deep selon nos objectifs de prédiction.
Le machine learning est une approche de l’intelligence arti…cielle qui permet aux
ordinateurs d’apprendre à partir des données et de prendre des décisions ou de faire
des prédictions sans être émises programmées.
89
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. Charger le Dataframe sur Colab ensuite exécuter l’algorithme sur les coordon-
nées des individus calculées par ACM. Le nombre de cluster prédis est 3. (Voir
Annexe 1)
90
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
L’algorithme K-means
. Charger le Dataframe sur Colab ensuite exécuter l’algorithme sur les coordon-
nées des individus calculées par ACM. Le nombre de cluster prédis est 3. (Voir
Annexe 2)
Le deep learning est une branche du machine learning qui se concentre sur l’utilisation
de réseaux de neurones arti…ciels profonds pour résoudre des problèmes complexes
en apprenant de façon automatique à partir des données.
. df _character$Status < N U LL
91
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
(Deep Neural Network) est un type de réseau neuronal arti…ciel composé de plu-
sieurs couches de neurones, également appelées couches cachées. Chaque couche est
connectée à la suivante, formant un réseau profond
Le modèle DNN
. Nous allons charger le Dataframe crée en haut sur Colab en premier lieu (Voir
Annexe 3)
. Entrainement. : sur ces trois …gures on résume les trois étapes importantes du
modéle DNN que nous allons entrainé sur notre Dataframe de 6646 individus
92
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
Prédiction
93
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
. On veut prédire le Status d’un nouvel individi qui a donné les réponses sui-
vantes :
. Le code suivant nous donne les coordonnées de cet nouvel individu dans les 5
composantes principales par ACM
Home = "owner";
M arital = "single";
Records = "n_rec";
print(nouvel_individu)
94
Chapitre 3. Application réelles sur l’Analyse des Correspondances Multiples
95
Conclusion
L
’analyse en correspondance multiple est une méthode d’analyse statistique
puissante pour étudier les relations entre les variables catégorielles. Elle o¤re
une approche visuelle et interprétable pour explorer et comprendre les structures
cachées dans les données qualitatives. Elle sert à :
. Utilisation des sorties de l’ACM en Datascience cela en les entrainant sur des
modèles de classi…cation en Machine Learning comme [Link] et en Deep
learning comme par exemple ANN, dans le but d’un déploiement d’outils de
prédiction avec des hautes pré[Link] sert à la prise de décision
96
Bibliographie
[7] Livre : Analyse des données avec R, F. Husson, S. Lê, J. Pagès, éditions PUR
[11] Robert, C. P., Casella, G., & Casella, G. (1999). Monte Carlo statistical me-
thods(Vol. 2). New York : Springer.
97
Bibliographie
98
Annexe : Abréviations et
Notations
Annexe 1 MCA_Clustering_Hiérarchique - Colaboratory
-0.303691829359047,0.217874294965367,-0.233012990087509,0.146767785894659,-0.262789225266439
-0.435933891756252,0.0585394730469498,2.15824565062018,1.04781633489336,0.685810576409709
-0.128961349046032,1.11542256279812,-0.0592734764454294,-0.322844571847536,-0.831781998976543
0.370947731721497,-0.400848497204644,-0.1541839090033,0.51343611368935,0.314657490810929
0.370947731721703,-0.400848497204532,-0.154183909003381,0.513436113689432,0.31465749081134
-0.542150430098447,-0.326061784500946,-0.094378249120426,-0.01465220522824,0.0392332814774307
-0.542150430098238,-0.3260617845017,-0.0943782491200314,-0.0146522052290101,0.0392332814764687
0.798988425383,-1.00136296588397,0.00797440954376478,0.224390892186233,-0.127505007417166
-0.597190537150106,-0.0493003576098253,-0.0488340042596338,-0.291977620311836,-0.651288378382046
import pandas as pd
import pandas as pd
import numpy as np
df=pd.read_csv("[Link]", sep=",")
[Link]()
[Link] hiérarchique
[Link] 1/4
28/06/2023 01:29 MCA_Clustering_Hiérarchique - Colaboratory
#representation dataframe
agglomerative=[Link](labels)
agglomerative
0 0
1 2
2 0
3 1
4 1
... ...
4441 0
4442 0
4443 0
4444 1
4445 0
array([[-0.30369183, 0.21787429],
[-0.43593389, 0.05853947],
[-0.12896135, 1.11542256],
...,
[ 0.39109721, 0.45904289],
[ 0.31590762, -0.12408707],
[-0.59719054, -0.04930036]])
[0 1 2]
[Link]()
[Link]()
[Link] 2/4
28/06/2023 01:29 MCA_Clustering_Hiérarchique - Colaboratory
[Link] le dendrogramme
[Link](figsize=(10,7))
[Link](" segmentation Dendrograms")
dend=[Link]([Link](df, method="ward"))
[Link] 3/4
28/06/2023 01:29 MCA_Clustering_Hiérarchique - Colaboratory
[Link] 4/4
Annexe 2 MCA_K_means - Colaboratory
-0.303691829359047,0.217874294965367,-0.233012990087509,0.146767785894659,-0.262789225266439
-0.435933891756252,0.0585394730469498,2.15824565062018,1.04781633489336,0.685810576409709
-0.128961349046032,1.11542256279812,-0.0592734764454294,-0.322844571847536,-0.831781998976543
0.370947731721497,-0.400848497204644,-0.1541839090033,0.51343611368935,0.314657490810929
0.370947731721703,-0.400848497204532,-0.154183909003381,0.513436113689432,0.31465749081134
-0.542150430098447,-0.326061784500946,-0.094378249120426,-0.01465220522824,0.0392332814774307
-0.542150430098238,-0.3260617845017,-0.0943782491200314,-0.0146522052290101,0.0392332814764687
0.798988425383,-1.00136296588397,0.00797440954376478,0.224390892186233,-0.127505007417166
-0.597190537150106,-0.0493003576098253,-0.0488340042596338,-0.291977620311836,-0.651288378382046
import pandas as pd
import pandas as pd
import numpy as np
df=pd.read_csv("[Link]", sep=",")
[Link]()
[Link] [Link]
# effectuer pca
pca = PCA(2)
[Link] 1/4
28/06/2023 01:31 MCA_K_means - Colaboratory
#Transform the data
df = pca.fit_transform(df)
[Link]
df
array([[-0.30369183, 0.21787429],
[-0.43593389, 0.05853947],
[-0.12896135, 1.11542256],
...,
[ 0.39109721, 0.45904289],
[ 0.31590762, -0.12408707],
[-0.59719054, -0.04930036]])
print(label)
print(u_labels)
[0 1 2]
[[-0.42897251 -0.1155666 ]
[ 0.23139271 0.74236365]
[ 0.74373139 -0.49880836]]
[Link](df)
4.K optimal
Sum_of_sqyared_distance=[]
K=range(1,15)
for k in K:
km=KMeans(n_clusters=k, random_state=0)
km=[Link](df)
Sum_of_sqyared_distance.append(km.inertia_)
[Link](K,Sum_of_sqyared_distance,'bx-')
[Link]('k')
[Link]('Sum_of_squared_distance')
[Link]('Elbowth method foropmtimal k')
[Link] 3/4
28/06/2023 01:31 MCA_K_means - Colaboratory
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
/usr/local/lib/python3.10/dist-packages/sklearn/cluster/_kmeans.py:870: FutureWarnin
[Link](
Text(0.5, 1.0, 'Elbowth method foropmtimal k')
[Link] 4/4
Annexe 3 MCA_DNN - Colaboratory
[Link] de libreries
import pandas as pd
import numpy as np
from [Link] import Sequential
from [Link] import Dense
from [Link] import to_categorical
import [Link] as plt
from tensorflow import keras
import tensorflow as tf
from sklearn.model_selection import train_test_split
from [Link] import StandardScaler
from [Link] import LabelEncoder
-0.359168816422818,-0.364698786760379,0.224477821344743,-0.272337146300252,0.0227747254682127,"good"
-0.455042759949676,2.04001514555353,1.73022951976883,0.883150228205062,0.195515406866965,"good"
-0.699728913815721,-0.367044208939554,0.28540327765881,-1.00859608627284,0.245814449464481,"bad"
0.604621518631184,-0.157214447593078,0.227405649274657,0.449564308719192,-0.258885583426606,"good"
0.604621518631518,-0.157214447592592,0.227405649274291,0.449564308718727,-0.258885583426482,"good"
-0.395232632824693,0.107246887869652,-0.395960235770232,0.0701850152078038,-0.165653283139742,"good"
-0.395232632824764,0.107246887869692,-0.395960235770231,0.0701850152078121,-0.165653283139729,"good"
1.29361692427923,0.230601070377521,-0.191048781773817,-0.0719920152958275,-0.27918786076106,"good"
-0.568140776261555,0.0499889121728875,-0.303392295909036,-0.762094911748248,0.0782117441900117,"good"
import pandas as pd
import pandas as pd
import numpy as np
df=pd.read_csv("[Link]", sep=',')
[Link]()
[Link] 1/6
28/06/2023 01:09 MCA_DNN - Colaboratory
(4446, 6)
[Link]().sum()
Dim 1 0
Dim 2 0
Dim 3 0
Dim 4 0
Dim 5 0
[Link] 0
dtype: int64
[Link]()
<class '[Link]'>
RangeIndex: 4446 entries, 0 to 4445
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Dim 1 4446 non-null float64
1 Dim 2 4446 non-null float64
2 Dim 3 4446 non-null float64
3 Dim 4 4446 non-null float64
4 Dim 5 4446 non-null float64
5 [Link] 4446 non-null object
dtypes: float64(5), object(1)
memory usage: 208.5+ KB
[Link]
[Link]()
[Link] 2/6
28/06/2023 01:09 MCA_DNN - Colaboratory
Réseau d'apprentissage
0 -0.359169 -0.364699 0.224478 en profondeur-prédiction
-0.272337 0.022775 1 ("Status" soit god ou bad)
1 -0.455043 2.040015 1.730230 0.883150 0.195515 1
[Link] 3/6
28/06/2023 01:09 MCA_DNN - Colaboratory
[Link] du modèle
model = Sequential([
Dense(64, activation='relu', input_shape=(5,)),
Dense(128, activation='relu'),
Dense(2, activation='softmax')])
[Link] du modèle
[Link](
optimizer='adam',
loss='categorical_crossentropy',
metrics=['accuracy'])
[Link]()
Model: "sequential_2"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
dense_6 (Dense) (None, 64) 384
=================================================================
Total params: 8,962
Trainable params: 8,962
Non-trainable params: 0
_________________________________________________________________
[Link] du modèle
history = [Link](
X_train,
Y_train,
epochs=5,
batch_size=32,
validation_data=(X_test, Y_test))
Epoch 1/5
126/126 [==============================] - 1s 4ms/step - loss: 0.5459 - accuracy: 0.7286 - val_loss: 0.5174 - val_
Epoch 2/5
126/126 [==============================] - 0s 2ms/step - loss: 0.5127 - accuracy: 0.7516 - val_loss: 0.5139 - val_
Epoch 3/5
126/126 [==============================] - 0s 2ms/step - loss: 0.5105 - accuracy: 0.7466 - val_loss: 0.5171 - val_
Epoch 4/5
126/126 [==============================] - 0s 2ms/step - loss: 0.5054 - accuracy: 0.7561 - val_loss: 0.5159 - val_
Epoch 5/5
126/126 [==============================] - 0s 2ms/step - loss: 0.5054 - accuracy: 0.7563 - val_loss: 0.5198 - val_
[Link] du modèle
[Link](X_test, Y_test)
[Link] du modèle
[Link]("bank_model_deep_learning")
#Loading a Model
loaded_model = [Link].load_model("bank_model_deep_learning")
[Link] 5/6
28/06/2023 01:09 MCA_DNN - Colaboratory
WARNING:absl:Found untraced functions such as _update_step_xla while saving (showing 1 of 1). These functions will
#Find prediction
prediction = [Link](raw_prediction)
print("Prediction is ", encoder.inverse_transform([prediction]))
[Link] 6/6
Résumé
ﻣﻠﺨﺺ
يقدم.) الستكشاف البيانات النوعيةMCA( تستكشف هذه الرسالة استخدام تحليل المراسالت المتعددة
يركز الفصل الثاني على موضوع. ومفاهيمها األساسية وخطوات التحليلACM الفصل األول طريقة
يطبق الفصل الثالث حساب تحدي األلفية على البيانات، أخيرا
ً . ووظائفهاFactoMineR لـACM
كشفت األطروحة أهمية. وإعداد البيانات والنتائج التي تم الحصول عليها، ويصف السياق، الحقيقية
. الستكشاف هياكل البيانات النوعية وتقديم رؤى للبحوث المستقبليةAMC
تحليل القيمة، تصور البيانات، الترميز الثنائي، تقليل األبعاد، البيانات الفئوية
المفردة