0% ont trouvé ce document utile (0 vote)
11 vues73 pages

Cours Biostat PA - 2023-1

Le document présente un cours sur la biostatistique appliquée à la production animale, abordant des concepts clés tels que les variables, les tests statistiques, et l'analyse de variance. Il inclut des méthodes pour comparer des moyennes, effectuer des tests d'association et d'indépendance, ainsi que des analyses multivariées, le tout avec des applications pratiques utilisant le logiciel R. Les enseignants, Prof Luc Dossa et Dr Ramsès Monkotan, sont affiliés à l'Université d'Abomey-Calavi.

Transféré par

Rogatien Adj
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
11 vues73 pages

Cours Biostat PA - 2023-1

Le document présente un cours sur la biostatistique appliquée à la production animale, abordant des concepts clés tels que les variables, les tests statistiques, et l'analyse de variance. Il inclut des méthodes pour comparer des moyennes, effectuer des tests d'association et d'indépendance, ainsi que des analyses multivariées, le tout avec des applications pratiques utilisant le logiciel R. Les enseignants, Prof Luc Dossa et Dr Ramsès Monkotan, sont affiliés à l'Université d'Abomey-Calavi.

Transféré par

Rogatien Adj
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Faculté des sciences agronomiques

Biostatistique appliquée à la
production animale
Cycle ingénieur/Master PA/Master ISA

Prof Luc DOSSA / Dr Ramsès MONKOTAN


Enseignant-Chercheur | Université d’Abomey-Calavi

1
Cours (1/2)
1. Rappels des notions de biostatistiques
1.1. Introduction
1.1. Nature des variables
1.2. Forme de présentation et paramètres descriptifs (paramètres de position,
paramètres de dispersion, paramètres de formes)
2. IC-Test d’association-Test de proportion-test d’indépendance
[Link] statistique (mise en œuvre, conditions d’application)
2.1. Test de conformité d’une proportion
2.2. Test d’égalité d’une proportion
2.3. Test d’indépendance
2.4. Analyse de corrélation de pearson-IC
3. Comparaison de moyennes (tests paramétriques et non paramétriques)
3.1. Vérification des conditions d’application

2
Cours (2/2)
3.2. Comparaison de moyenne d’un échantillon à une valeur théorique
3.3. Comparaison de deux échantillons indépendants
3.4. Comparaison de deux échantillons appariés
4. Modèle d’analyse de variance
4.1. Anova à un facteur
4.2. Anova à deux facteurs (sans interaction)
4.3. Anova à deux facteurs (avec interaction)
4.4. Anova avec des données déséquilibrées
5. Analyses multivariées
5.1. Analyses en composantes principales (ACP)

Application avec R software


Travaux dirigés

3
Rappel des notions statistiques

4
Introduction
LA STATISTIQUE est une discipline traitant du recueil (plans d’expérience, sondages,
…), du traitement et de l’interprétation de données.

UNE POPULATION est un ensemble d’unités sur lesquelles une caractéristique peut être
relevée.
UN ECHANTILLON est une partie de la population.

Exemple : Quantité de matières grasses (mg)

120 154 175 193 220


125 159 183 195 222
137 160 185 198 238
149 163 192 199 242

Statistique descriptive: ensemble des méthodes et techniques permettant de présenter,


de décrire et de résumer des données nombreuses et variées sous une forme telle qu’on
puisse en prendre connaissance aisément.

5
Introduction

L’analyse des résultats après la collecte des données se décompose en deux phases à

savoir la statistique descriptive (1ère phase) et l’inférence statistique/statistique

inférentielle (2ème phase).

Le but d’une étude statistique est d’apporter des informations sur une

Population.

La statistique inférentielle a pour but d’étendre autant que possible, les conclusions

concernant les individus observés comme constituant un échantillon à un ensemble plus

vaste appelé population

6
Nature des variables

Individu : « Objet » sur lequel un ou plusieurs caractères peuvent être observés.

Variable : Caractéristique ou attribut des individus.

7
Forme de présentation et paramètres descriptifs

Forme de présentation : Tableaux (diagrammes de fréquences) et diagrammes (circulaire,

en bâtons, histogramme, polygone de fréquence, courbe continue etc)

Paramètres descriptifs : Paramètres de position (Moyenne, mode, médiane), Paramètres

de dispersion (variance, écart-type, coefficient de variation).

8
Forme de présentation et paramètres descriptifs

9
Forme de présentation et paramètres descriptifs

Poids n moyenne Sx Cv (%)


Antennais 77 112.6 4.64 4.12 Il y a plus de variabilité au
sein des antennais.
Béliers 51 162.6 5.12 3.12 L’écart-type donne un résultat
tout à fait contraire.

10
Application dans R

11
Application dans R

12
IC-Test de proportion-test
d’indépendance-test d’association

13
Intervalle de confiance
Intervalle de confiance
Plages de valeurs, issues des statistiques d'échantillons,
susceptibles de contenir la valeur d'un paramètre de population
inconnu. En raison de leur nature aléatoire, il est peu probable
que deux échantillons d'une population donnée génèrent des
intervalles de confiance identiques. Par contre, si vous répétiez
l'échantillonnage de nombreuses fois, un certain pourcentage des
intervalles de confiance obtenus contiendrait le paramètre de
population inconnu.

14
Application dans R

Un intervalle de confiance à 95 % indique que 19 échantillons sur 20 (95 %)


d'une même population génèrent des intervalles de confiance qui contiennent
le paramètre de population.

15
Test d’association

Corrélation de pearson : Indique le degré de netteté de la


liaison entre deux caractères X et Y. Il est noté r
Il est compris entre -1 et 1
La corrélation n'implique pas nécessairement une causalité.
Seules les expériences contrôlées vous permettent de déterminer
la causalité. Par exemple, même si l’indice de consommation
d’une bande de poules pondeuses et le degré de température
peuvent être corrélés négativement, cela ne veut pas dire qu'une
augmentation de la température provoque systématiquement une
diminution de l’IC.
16
Test d’association

Nous sommes plutôt probablement en présence d'une variable


pouvant être source de confusion, en l'occurrence la teneur en
energie de l’aliment.
Une valeur extrême unique peut sensiblement affecter le
coefficient. Recherchez les valeurs aberrantes et analysez leur
effet.

17
Application dans R

18
Test statistique
Démarches pour l’application d’un test statistique dans un logiciel

Etape 1 : Obtenir les données et identifier le test statistique approprié sur la base des
objectifs de l’étude.
Etape 2 : Formuler littéralement les hypothèses (Hypothèse nulle notée « H0 » et
Hypothèse alternative notée « H1 »).
Etape 3 : Importer les données dans le logiciel
Etape 4 : Vérifier les conditions d’application du test (s’il s’agit d’un test
paramétrique)
Etape 5 : Faire éventuellement des transformations de variables (Logarithme
Népérien ou Racine carrée, etc.) en cas de non respect des conditions
d’application de test paramétrique
Etape 6 : Réaliser le test dans le logiciel tout en spécifiant les hypothèses à tester
Etape 7: Interpréter et conclure
19
Test statistique
Qu’est ce que la P-value

Lorsque les tests sont réalisés dans les logiciels statistiques, ceux-ci fournissent entre
autre valeur de probabilité (P-value) liée au test. Cette valeur de probabilité est
d’ailleurs la plus utilisée dans les conclusions. Que signifie exactement cette valeur?
La valeur p est la probabilité qu’un événement quelconque soit le simple fait du
hasard. De façon purement arbitraire, on considère en général comme «
statistiquement significatives » les valeurs de p inférieures à 1 chance sur 20
autrement dit que la probabilité (p) qu’une valeur soit due au hasard ne dépasse pas
5%.
p ≤ 0,05 => différence statistiquement significative
p > 0,05 => différence non statistiquement significative.
Accepter H0 (AH0) si P-value > α (5%)
 Rejeter H0 (RH0) si P-value ≤ α (5%)
20
Test statistique
Postulats (Conditions d’application)

Les conditions d’application peuvent être aussi bien paramétriques que non

paramétriques.

Les méthodes paramétriques supposent des hypothèses particulières qui concernent

les caractéristiques de la population d’étude. Ces hypothèses sont souvent liées à la

distribution et à la variabilité des données.

Par contre, les méthodes non-paramétriques n’émettent aucune hypothèse

sur les populations d’étude. Toutefois, elles sont moins précises que les tests

paramétriques.

21
Test de conformité d’une proportion (1/2)

Pour comparer un pourcentage à un pourcentage théorique


Exercice : L’entreprise Masso a un produit efficace à 90 % contre la gale des gros
ruminants.
Troupeau traité : 350 animaux sélectionnés au hasard, 308 sains
Question: Le produit est-il efficace ?
Application avec R

[Link](nombre de succès, nombre total, probabilté théorique)

[Link](308,350,0.90)

22
Test de conformité d’une proportion (2/2)

si pval < =0.05 alors les 2 pourcentages sont différents.


si pval > 0.05 alors les 2 pourcentages sont égaux.

23
Test d’égalité de deux proportions (1/2)
[Link](c(nombre de succès dans le groupe 1, nombre de succès dans le
cas groupe 2), c(nombre total dans le groupe
1, nombre total dans le groupe 2),correct=FALSE)
Exercice : Comparez le niveau d’infestation des tiques des taurillons et des bouvillons
dans un troupeau.
13 animaux infestés chez 120 bouvillons
17 animaux chez 140 Taurillons
1er cas : Tableau de contingence réalisé

24
Test d’égalité de deux proportions (2/2)
1er cas : Tableau de contingence réalisé

25
Test d’indépendance Khi 2
1er cas : Tableau de contingence réalisé

Exercice : On désire apprécier les préférences de races de moutons (djallonké,


sahélien, vogan) de trois ethnies au Bénin.

aizo mina bariba


dja 6 2 1
sah 1 1 7
vo 2 7 2
Les races de moutons élevés dépendent elles des ethnies ?

Hypothèse nulle H0: les races élevées ne sont pas liées aux ethnies.
Hypothèse H1: Les races élevées dépendent des ethnies.

26
Test d’indépendance Khi 2
1er cas : Tableau de contingence réalisé

count<-matrix(c(effectifs de la première colonne, effectifs de


la
deuxième colonne, effectifs de la ième colonne),
nrow=nombre de ligne)
[Link](count)

Le chi test n’est pas approprié en raison de la taille de l’échantillon par groupe, auquel
cas, utiliser le test de fisher
27
Test d’indépendance Khi 2
1er cas : Tableau de contingence non réalisé

28
Test d’indépendance Khi 2
1er cas : Tableau de contingence non réalisé

Le logiciel nous prévient une fois encore que le test de chi 2 peut être incorrect, utiliser
la fonction [Link] dans ce cas. Quoi qu’il en soit le hasard ne peut pas expliquer à lui
tout seul les races de moutons élevées par les différentes ethnies.

29
Comparaison de moyenne (test
paramétrique et non
paramétrique)

30
Vérification des conditions d’application
Condition de normalité

Appréciation graphique de la normalité avec la droite de Henry


post<-[Link]("clipboard",h=T,sep="\t",dec=".")
names(post)

qqnorm(post$Matgrasses)
qqline(post$matgrasses,lty=5)

31
Vérification des conditions d’application

Vérification de la normalité avec le test de shapiro-wilk


[Link] (post$matgrasses)

H0 : les données sont distribuées selon une loi


Normale
H1 : les données ne sont pas distribuées selon une
loi Normale
si pval < 0.05 alors la normalité est rejetée
si pval > 0.05 alors la normalité est acceptée

32
Vérification des conditions d’application

Vérification de l’égalité des variances Car and lawstats library


[Link](post$Matgrasses,post$Race) can also be used

La variable quantitative Le facteur de comparaison

H0 : les variances des k groupes sont égales


(homogénéité)

H1 : les variances d'au moins deux groupes sont


différentes (hétérogénéité)

si pval < 0.05 alors l'homogénéité est rejetée


si pval > 0.05 alors l'homogénéité est acceptée

33
Comparaison de la moyenne d’un échantillon à une moyenne théorique

1er cas : Test paramétrique

Un test paramétrique couramment utilisé pour comparer deux


échantillons indépendants est celui du test t de Student à deux
échantillons indépendants. Il est utilisé lorsque les populations
suivent une distribution normale et que leurs variances sont égales.
Il est aussi utilisé pour comparer la moyenne d’un échantillon à une
moyenne théorique.
[Link](moyenne de l’échantillon, mu=moyenne théorique)

34
Comparaison de la moyenne d’un échantillon à une moyenne théorique

2ème cas : Test non paramétrique


Le test de Wilcoxon à un échantillon est un test non-paramétrique utilisé pour
comparer une médiane à une médiane théorique. Il est utilisé lorsque les données ne
suivent pas une distribution normale. Dans l’exemple précédent, supposons que les
données ne suivent pas une distribution normale.

[Link](Variable,mu=Médiane théorique,exact=TRUE)

35
Comparaison de deux échantillons indépendants

1er cas : Test paramétrique


[Link](variable quantitative~Facteur de comparaison,[Link]=TRUE
Dans le cas
où les variances
sont égales

Dans le cas
où les variances
ne sont pas
égales

36
Comparaison de deux échantillons indépendants

2ème cas : Test non paramétrique


[Link](Variable quantitative ~ Facteur de comparaison, exact=TRUE)
NB: Remarquer
la nature des
données, le
logiciel
considère zae
comme étant
une variable
quantitative. Il
faut donc
procéder à la
modification
avec
l’instruction
[Link] avant
de réaliser le test

37
Comparaison de deux échantillons appariés

1er cas : Test paramétrique (test t de student à deux échantillons)


[Link](Début, fin, paired=TRUE)

38
Comparaison de deux échantillons appariés

2ème cas : Test non paramétrique (test de wilcoxon)


[Link](Début, Fin, exact=TRUE, paired=TRUE

39
Analyse de variance

40
Définition et principes

Le test paramétrique utilisé pour comparer deux ou plus de deux échantillons


indépendants est l’Analyse de la variance (Analysis Of Variance, ANOVA).

But de l’ANOVA = tester des différences éventuelles entre modalités d’un ou


de plusieurs facteurs sur la base de la mesure d’une variable donnée.

Conditions générales d’application :


• Echantillons aléatoires et indépendants.
• Populations normales.
• Homogénéité (ou égalités) des variances.

Les calculs relatifs à l’analyse de variance sont présentés dans un tableau


ANOVA

41
Tableau ANOVA

42
Anova à un facteur

Exemple
Soit à comparer les GMQ de trois lots de poulettes issues de trois différentes
rations.

gmq ration
11 R1
9 R1
7 R1
8 R1
9 R2
8 R2
10 R2
8 R2
12 R3
14 R3
13 R3
11 R3

43
ANOVA à un facteur

Exemple
En considérons la valeur de P, on conclut à une différence significative des
moyennes au seuil de 5 %. Néanmoins, on ignore où et dans quel ordre, se
trouve la différence.
Pour établir cette différence, on peut utiliser la fonction Snk du package
agricolae.

44
ANOVA à un facteur

Les moyennes
avec les mêmes
lettres ne sont
pas
significativeme
nt différentes

45
ANOVA à 2 facteurs sans répétitions

L’expérience suivante consiste à tester l’effet de différentes doses d’azote


et de phosphore sur le rendement (t/ha) de aschynomène h. A chacune des
doses d’azote est combinée chacune des doses de phosphore. Les
résultats sont présentés dans le tableau suivant :
rend p N
1 p1 n1
3.2 p1 n2 On se propose alors de savoir si les doses de N et
2.6 p1 n3 de P ont une influence significative sur le
2.3 p1 n4
0.9 p2 n1
rendement.
2.9 p2 n2
4.1 p2 n3
1.5 p2 n4
2.7 p3 n1
3.5 p3 n2
2.8 p3 n3
0.7 p3 n4
1.7 p4 n1
3.1 p4 n2
3.2 p4 n3
1.1 p4 n4

46
ANOVA à 2 facteurs sans répétitions

L’effet du facteur “Dose d’azote” est significatif (Prob. = 0,010) contrairement à


celui du facteur “Dose de phosphore” (Prob. = 0,990). Ainsi, on conclut que les
différences entre doses d’azote induisent des différences entre rendements de la
légumineuse tandis que les différences observées entre rendements pour les
différentes doses de phosphores est simplement dû au hasard.
NB: On pourrait donc se proposer d’adopter le modèle plus simple d’une analyse du
seul facteur « Dose d’azote ». 47
ANOVA à 2 facteurs avec répétitions

Reprenons l’exemple Précédent mais en ne considérant 2 niveaux pour le facteur


« Dose d’azote » et 3 niveaux pour le facteur « Dose de phosphore ». Supposons
par ailleurs que chaque combinaison de niveaux des deux facteurs a été répétée 5
fois (voir tableau dans excel).
NB: Notez la
nature des
variables P et
N qui ne sont
pas
considérées
comme étant
des facteurs
par R.
Procédez
alors au
changement
de leur nature

48
ANOVA à 2 facteurs avec répétitions

Dans l’écriture du modèle, en cas d’interaction, veuillez noter l’utilisation du signe (*) au lieu
de (+). L’interaction entre les deux facteurs n’est pas significative ou l’est juste ou à peine
(Prob.=0,051). On peut donc directement interpréter les effets principaux des deux facteurs
pris individuellement. En effet, les modalités des deux facteurs sont très hautement
significatives (Prob.=0,000 et Prob.=0,000).
Une interaction significative implique que l’influence du facteur A (Dose d’azote par exemple)
sur le rendement du maïs dépend du facteur B (Dose de phosphore par exemple) et vice versa.
Dans ces conditions, il se pourrait donc que la dose d’azote induise des différences
significatives pour certaines doses de phosphore, sans que ces différences ne soient
significatives dans l’ensemble.
49
ANOVA avec données déséquilibrées

En situation réelle, il est extrêmement rare d’être en présence de données équilibrées,

lesquelles présentent un même nombre d’observations pour chaque modalité de chaque facteur.

Ainsi, un plan équilibré possède un nombre égal d'observations pour toutes les combinaisons

possibles de niveaux de facteurs. Si le test ANOVA convient à ce genre de données, il est

inadéquat quand il s’agit de données déséquilibrées. Dans le cas d’espèce, on peut utiliser le

general linear model (GLM en anglais) qui concerne aussi bien les modèles équilibrés que les

modèles déséquilibrés.

50
ANOVA avec données déséquilibrées

Il peut se réaliser en utilisant la procédure proc glm dans un logiciel comme SAS ou en faisant

appel aux contrastes dans un logiciel comme R. Lorsqu’on ajuste le modèle complet, c’est à

dire avec l’interaction, on utilise généralement des carrés de type III. Pour cela, il est

nécessaire de changer les contrastes des deux facteurs du format par défaut de type

« [Link] », vers le format « [Link] ». C’est ce qui permet au logiciel de calculer

correctement ces carrés de type III avec l’aide du package car.

L’expérience suivante consiste à apprécier l’influence de la race et du numéro de lactation sur

la quantité de matière grasse des bovins de race Borgou et lagunaire. Comparez les

performances des vaches d’une lactation à l’autre.

Les données sont présentées dans le tableau suivant :

51
ANOVA avec données déséquilibrées
race lact age mg
BO 1 23 147
BO 1 21 135
BO 2 40 197
BO 2 30 157
BO 2 34 161
BO 2 38 191
BO 2 40 196
BO 2 36 174
BO 3 51 218
BO 3 54 236
BO 3 54 240
BO 3 52 220
LA 1 26 123
LA 1 22 118
LA 2 27 142
LA 2 36 158
LA 2 41 183
LA 3 39 180
LA 3 42 193
LA 3 46 190

Res <- lm(rend=N*P, contrasts=list(N=[Link], P=[Link]), data=files


52
ANOVA avec données déséquilibrées

NB: Ne pas oublier le chargement des packages car et agricolae

53
ANOVA avec données déséquilibrées

54
ANOVA avec données déséquilibrées

55
ANOVA avec données déséquilibrées

56
Analyses multivariées

57
Analyses multivariées (définition et principe)

L’analyse multivariée constitue un ensemble de méthodes statistiques qui ont

pour but de résumer les données issues de plusieurs variables en minimisant la

déperdition de l’information. Lorsque nous sommes en présence de deux

variables numériques, l’âge et le poids d’individus d’aulacodes (Tryonomys

swinderianus), il est aisé d’imaginer une représentation graphique qui résume

l’information. Si on ajoute une troisième variable, par exemple le GMQ (gain

moyen quotidien), il faudrait un troisième graphique, plus difficile à lire, en

ajoute une quatrième variable, il est pratiquement impossible d’appréhender un

tel jeu de donnée.


58
Analyses multivariées (définition et principe)

Il faut donc avoir recours aux analyses multivariées pour interpréter ce genre de

tableau. Ces analyses sont capables de ramener un nuage de points de trois,

quatre ou n dimensions à un plan à deux à dimensions.

Ainsi, les axes choisis ne correspondent pas à l’une ou l’autre des variables mais

sont issus de combinaisons entre les variables et calculés pour passer le plus

près possible de toutes les observations.

59
Choix d’une analyse multivariées

Les différentes méthodes d’analyse multivariées permettent de répondre à de

problématiques variées. Le choix d’une méthode dépend de l’objectif initiale,

des types de variables à manipuler mais aussi de la forme des résultats obtenues

qui peuvent être plus ou moins faciles à présenter et à expliquer. Ces méthodes

visent à structurer net simplifier les données issues de plusieurs variables sans

privilégier l’une d’entre elles en particulier.

60
Choix d’une analyse multivariée

Les méthodes souvent utilisées sont :

L’analyse en composantes principales (ACP)

L’analyse factorielle des correspondances (AFC)

L’analyse factorielle des correspondances multiples (AFCM ou ACM)

La typologie et les méthodes de classification.

61
Critère à retenir

Objectifs Conditions et Méthodes multivariées


nature des
variables
Variables Analyse en composantes
Résumer l’information numériques principales (ACP)
en minimisant la 2 variables Analyse factorielle des
déperdition et repérer qualitatives correspondances (AFC)
les dimensions cachées Trois variables Analyse factorielle des
qualitatives ou plus correspondances multiples
Constituer des groupes Le nombre de Analyse typologique
d’individus aussi groupes est fixé
similaires que possibles Le nombre de Classification numérique
groupes n’est pas
fixé

La liste n’est pas exhaustive et il reste encore une pléthore d’analyses


multivariées comme l’AFDM ou encore l’analyse discriminante factorielle

62
ACP

L’ACP ou principal component analysis (PCA) en anglais permet d’analyser des

données contenant des individus décrits par plusieurs variables quantitatives.

L’ACP synthétise cette information en seulement quelques nouvelles variables

appelées composantes principales. Ces nouvelles variables correspondent à une

combinaison linéaire des variables originelles. Le nombre de composantes

principales étant évidemment inférieur au nombre de variables originels.

L’information contenue dans le jeu de données correspond à la variance ou

l’inertie totale qu’il contient.

63
ACP

Ainsi, la dispersion du nuage de points dans les N dimensions originales

s’appelle l’inertie et pour calculer la quantité d’information conservée par

l’approche ACP, on calcule le pourcentage d’inertie expliqué par chacun des

axes.

64
ACP

A la fin de l’ACP, on obtient des graphiques représentant les graphiques et les

variables.

A partir de ces plots, on va pouvoir étudier :

 Les relations entre les variables (les colonnes)

Les relations entre les observations (les lignes)

Les relations entre les observations et les variables (par exemple, quelles sont

les observations les plus élevées pour telle ou telle variable)

Essayer de donner une signification « métier » aux axes de l’ACP.

65
ACP

Le coordonnateur de projet d’appui à la filière « Ananas » au Benin, dans ses

actions, souhaite proposer une variété d’ananas aux producteurs de Zè. Pour ce

fait, il collecte les caractéristiques physico-chimiques de 20 cultivars. Une

analyse en composantes principales a été réalisée sur ces caractéristiques.

Réalisez l’ACP et interprétez les résultats obtenus

Proposer un ou des cultivars si les producteurs préfèrent les fruits longs et de pH

appréciable.

66
ACP

Packages utilisables (vegan, ade4 ou FactoMineR)


Library(FactoMineR)
vib<-[Link](‘’clipboard’’,h=T,dec=‘’.’’,sep=‘’\t’’,[Link]=1,[Link]=False)

Spécifier que le nom des individus est disponible dans la 1ère colonne
du jeu de données

1. On charge le package FactoMine R)


2. On réalise l’ACP et on a par défaut le graphe des variables et celui des individus
3. Interprétation: Les variables qui ont les flèches les plus longues ont celles qui on le
plus contribué à la construction du plan. Le graphe des individus projette les individus
dans le plan formé par les différents axes

67
ACP

On obtient les principaux résultats avec la fonction suivante

On a un tableau avec les valeurs propres et les pourcentages d’inertie associés à chaque axe.

En principe , on retient les premiers axes dont le cumul dépasse 50 % de l’inertie totale et on

conclut alors que ces différents axes résument l’essentiel des information de départ et

peuvent garantir une bonne précision d’interprétation.

68
ACP

Remarque : les pourcentages d’inertie sont les valeurs propres ou


d’eigenvalues (il s’agit de la quantité de variance expliquée),
exprimées en pourcentage. Il est également possible de réaliser un plot
pour visualiser ces pourcentages d’inertie :

Pas très élégant mais peut être


amélioré en utilisant le package
factoextra

69
ACP
fviz_eig(res,addlabels=TRUE,title="pourcentage
d'inertie des axes")

70
ACP

On a ensuite un tableau avec les résultats sur les individus (par défaut
les 10 premiers)

On a le nom des individus, la distance des individus au centre de gravité du nuage puis les

résultats sur la première dimension avec la coordonnée de l’individu sur la première

dimension, sa contribution à la construction de la première dimension et une qualité de

représentation sur le 1er axe. On a tous ces résultats pour tous les axes.

71
ACP

On a ensuite un tableau avec les résultats sur les variables

On a le nom des variables, les coordonnées sur la 1ère dimension, la contribution de la

variable sur la construction de l’axe et la qualité de la représentation mesurée par le cos².

72
ACP

Il est important de décrire ces dimensions en utilisant la fonction suivante

On obtient les corrélations entre chaque variables et les différents axes. On conserve les

corrélations qui sont significativement différents de 0. Ces résultats sont triés des plus liés

positivement aux moins liés négativement. 73

Vous aimerez peut-être aussi