0% ont trouvé ce document utile (0 vote)
21 vues33 pages

DR - Pierre-Emmanuel Encinar: Encadrent

Transféré par

Ahmedsalm Aicha
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
21 vues33 pages

DR - Pierre-Emmanuel Encinar: Encadrent

Transféré par

Ahmedsalm Aicha
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ENCADRENT : Dr.

Pierre-Emmanuel Encinar

REALISER PAR : Aicha Mouhamed Bouhoubeini C13763

1
Table des matières
1 :Introduction : .................................................................................................... 3
2 :Jeu de données 1 : Données performances ..................................................... 3
2.1. Présentation des données : ........................................................................ 4
A. Analyses numérique : .............................................................................. 4
B. Analyses graphique : .................................................................................. 5
2.2. Présentation des qualités psychométriques des items. .......................... 11
A. Indice de difficulté. ................................................................................ 11
B. Indice de discrimination. .......................................................................... 12
2.3. Conclusion statistique générale : ............................................................ 14
2.4. Conclusion scientifique générale : ........................................................... 16
3. Jeu de données 2 : Analyses........................................................................... 17
3.1. Présentation des données. ....................................................................... 17
A. Analyses numérique et graphique univariées.......................................... 17
B. Analyses numérique et graphique bivariées ............................................ 19
3.2. Analyses dimensionnelles exploratoires .................................................. 22
A. Analyse du nombre de composantes à..................................................... 23
B. Analyse en composantes principales ....................................................... 24
c. Analyse en factorielle ............................................................................... 29
D. différence entre l’analyse en composantes principales et l’analyse
factorielle exploratoire ................................................................................. 33
3.3. Conclusion statistique générale ............................................................... 33
3.4. Conclusion scientifique générale ............................................................. 33

2
1 :Introduction :

L'analyse des données est le processus qui consiste à examiner et à


interpréter des données afin d'élaborer des réponses à des questions.
Les principales étapes du processus d'analyse consistent à cerner les
sujets d'analyse, à déterminer la disponibilité de données appropriées,
à décider des méthodes qu'il y a lieu d'utiliser pour répondre aux
questions d'intérêt, à appliquer les méthodes et à évaluer, résumer et
communiquer les résultats.
L'analyse des données est essentielle pour comprendre les résultats
des enquêtes, des sources administratives et des études pilotes, pour
obtenir des renseignements sur les lacunes en matière de données,
pour concevoir et remanier les enquêtes, pour planifier de nouvelles
activités statistiques et pour formuler des objectifs en matière de
qualité.

2 :Jeu de données 1 : Données


performances

Dans la première jeu de donne on a que Le ministère de l’éducation


Mauritanien a fait passer un test de performance en mathématiques.
est On a un jeu de donnes contient 50 variables et avec 1001
Observations.

3
Dour débute le travail périmeraient on va préparation de l’avironnent
du travail:

A : j’importe mon data dans Rstudi


[Link] <- [Link]("C:/Users/Aicha/Downloads/Ahmedsalm-Aicha-perf",
header=TRUE, colClasses = "numeric")
dt <- [Link]

B : j'Install tous les packages que je veux utilise


#installation du packges
#[Link]("foreign")
#[Link]("psych")
#[Link]("hemp")
#[Link]("devtools")
#devtools::install_github("cddesja/hemp

2.1. Présentation des données :

A. Analyses numérique :
describe(dt)

4
Cette commande à donner un résumé statistique sur mes variables
(le variance, le nombres d’observation, la moyenne, l’ectype, max
,min la médiane, range…).

B. Analyses graphique :

histogrammes:

for (i in 1:ncol(dt)){
hist(dt[,i],col="red",breaks=28,main=paste( "Histogram of", Xnames[i]),xlab =Xnames[i])
}

5
6
7
Interprétation :
D'après les histogrammes on a que les items de 1 jusqu’à 25 on
favorise la réponse 1 mes en même Temps on remarque que la repose
0 a augment a cheque fois jusqu’à l’item 26 on a une égalité entre
repose 1 et 0.
Apres on constate que a partir de l'item 27 Il y a un excès du la repose
0 sur 1 .

8
Multi Hist :
[Link](dt, density = TRUE, freq =F, bcol = "green")

Pour nous donnée les histogramme de tous les donnes dans le même
plot.

Corrélation :

[Link](dt,upper=F,diag=F)

9
D’après la matrice de corrélation on remarque que la plus grande
corrélation entre les variables est 0,41 qui existe entre v46 et v40,
v10 et v5.

10
2.2. Présentation des qualités
psychométriques des items.

A. Indice de difficulté.

item_diff <- colMeans(dt, [Link] = TRUE)

round(item_diff, 2)

Pour nous donne la difficulté de chaque items

on remarque que l'indice de différenciation de chaque variable est


égal à sa moyenne.

Après on a représenté le graphique du pourcentage de réussite en


fonction de la place de l’item dans le questionnaire.

plot(item_diff,las=1,type="h",ylim=(0 :1),xlab="Items",ylab="Pourcentage de réussite")

text(item_diff,labels=names(dt),adj=.5,pos=3,offset = .1)

grid()

11
Comme que tous les items on reçut un pourcentage plus de 25% on
peut dire que le pourcentage de réussite est n’est pas égal au hasard.
Donc en général les items sont de bonne qualité.
Et l’item V1 a été le plus facile, le plus réussi, avec 75%.

B. Indice de discrimination.
Pour distinguer quels items sont les plus liés au score total des élèves.

12
total_score <- rowSums(dt, [Link] = TRUE)
item_discr <- cor(dt, total_score, use = "[Link]")
item_discr
discri<-[Link](data, total_score)
[Link](discri,upper=F,diag=F)

Les résultats montrent des corrélations item-test positive élevé entre


.52 et .62 donc cela implique que nous n’avons pas besoin d’enlever
ou de modifier un item.

13
2.3. Conclusion statistique générale :

Pour conclure on trouve que la corrélation d’item-test (row.r) est


entre .52 et .62 et la corrélation item-test corrigée ([Link]) entre.49
et .59
On constate que la corrélation item-test est toujours supérieure de
corrélation item-test corrigée.
Fréquence de réponse non manquante pour chaque item :
Donne les résultats suivants

14
On remarque que plus on avance dans les items plus la réponse sera
faux.
Par conter au débit 62% de participants étaient choisir la bonne
réponses,

15
2.4. Conclusion scientifique générale :

D’après les analyses que nous avons fait dans ce jeu de donnée on
peut sortir par le suivant :
[Link] item après item la réponse a été faux.
[Link] plus que on avance plus que les items seront difficiles.
[Link] sella à chaque fois les réponses faux augment.
[Link] remarque une diminuer du pourcentage de reçu.
5. en les dernier item (plus difficile) reçu par les meilleurs étudiants
qui représentons 24% d'après l'analyse.

16
3. Jeu de données 2 : Analyses
Dimensionnelle.

Le deuxième jeu de donnes est un jeu de donnes éducatives récoltées


par le ministère de l’éducation Mauritanien.
Le jeu contient 12 variables et 10000 observations.

A : j’importe mon data dans Rstudi


[Link] <- [Link]("C:/Users/Aicha/Downloads/Ahmedsalm-Aicha-dim",
header=TRUE, colClasses = "numeric")

3.1. Présentation des données.


A. Analyses numérique et graphique
univariées

17
Numérique
describe(data)

Il me donne la moyenne, médiane, max, min, variance, range…. de


mon dataset.

Graphique
Histogramme :
[Link](data, density = TRUE, freq =F, bcol = "red")

18
D’après les histogrammes on a que :
V1,V5,V8,V10,V11,V12 sont des distribution unimodal.
V2,V3,V4,V6,V7,V9 sont des distribution bimodal.

Le graphique en boîte

boxplot(data, data = NULL,subset, [Link] = NULL, add = FALSE, #horizontal = FALSE,drop = FALSE,
sep = ".", [Link] = FALSE)

?????????????????????????????????

B. Analyses numérique et graphique


bivariées

Corrélations entre les variables

19
[Link](data,upper=F,diag=F)

D’après la représentation du corrélation ente les variable on a:


V1 corrélation négatif avec V8,V7,V9(-.25,-.24.-.23),
corrélation positif avec V3,V2(.24)
V2 corrélation négatif avec V8,V9(-.26,-.25), est positif avec
V3

20
V3 corrélation négatif avec V9,V7,V8.
V4 une corrélation négatif avec V10,V11,V12.
V5 corrélation négatif avec V10,V11,V12.
V6 corrélation négatif avec V12,V10,V11

Corrélogrammes

Les corrélations entre les variables avec des graphiques.


Avec la fonction pairs
pairs(data,pch=20,[Link] = NULL)

Nous voyons la distribution des points pour les variables, deux par
deux. Grâce à ces graphiques nous voyons la force du lien entre les
variables, le sens des corrélations, les points extrêmes.

21
[Link](data, smooth = TRUE, scale = FALSE, density=F, ellipses=TRUE, digits = 2,
method="pearson", lm=FALSE, cor=TRUE, [Link]="grey", [Link]=TRUE, rug=F)

Le point rouge est la moyenne des deux variables, la courbe rouge est
une régression non-paramétrique des observations. Les graphiques
dans la diagonale sont des histogrammes pour chaque variable.

3.2. Analyses dimensionnelles


exploratoires
22
A. Analyse du nombre de composantes à
extraire

scree(data, factors = FALSE, hline = -1, main = "")

[Link](data, cor = "tet")

On remarque que on deux variables principal domine les autre


variables.

23
B. Analyse en composantes principales
(ACP)
L’objectif de l’ACP est de faire un bilan des liaisons linéaires entre les
variables en trouvant les principales dimensions de variabilité. Ce bilan
est complété par la définition des variable latentes proposées par
l’ACP. Il est plus facile de commenter les données par quelques
variables latentes plutôt que par l’ensemble des variables.

Ce sont les variables actives qui participent à la construction des


composantes de l’ACP,
[Link] <- PCA(d)

On remarque que (V 1,V2,V3) sont corrèle négatifmant avec


(V7,V9,V8)
Et (V4,V5,V6) corrèle négatifmant avec (V10,V11,V12).

24
Choisir le nombre de composantes à analyser :
barplot([Link]$eig[,2],main="",las=1,[Link]=paste("Dim",1 :nrow([Link]$eig)))

25
Nous observons une cassure après la troisième composante. Le
pourcentage de variance expliquée par les deux premières
composantes qui est très important,
Cela signifie que l’information du données est expliquée par 2
composantes principales.

PCA avec le package « psych »

Analyse graphique
26
[Link](d,mar=c(2,3,1,1),las=1,freq=T,bcol="blue",breaks=3)

Analyse des corrélations

[Link](data,upper=F,diag=F)

Le choix du nombre de facteurs

27
Le graphique nous montre que deux composantes expliquent la
majorité de la variabilité des données.

28
c. Analyse en factorielle

Détection des valeurs extrêmes

data.d2 <- [Link](data,d2)


[Link](data.d2,bg=c("yellow","red")[(d2 > 14)+1],pch=21,col="black")

Les graphiques nous montre les valeurs extrêmes en rouge.

29
Les valeurs minimales et maximales prises par les variables.
apply(data, 2, min)

apply(data, 2, max)

Les valeurs minimales et maximales prises par les variables.

Le graphique des éboulis

scree(data,factors=TRUE,pc=F,main="",hline=-1)

30
D’après le graphique nous voyons que le premier facteur et Le
second facteur expliquent une grande partie de la variabilité des
données.
Le troisième facteur explique une partie beaucoup plus faible de la
variabilité. Ici nous faisons face au problème de choisir le nombre de
facteurs à extraire. Nous pouvons choisir d’extraire un ou deux
facteurs.

L’analyse parallèle
31
[Link](solution1,main="")

Les résultats montrent que les coefficients de saturations, dans la


colonne MR1, avec le facteur sont moyenne, de .5 pour les variables
V11, V12, V10 .

32
D. différence entre l’analyse en
composantes principales et l’analyse
factorielle exploratoire

D’après la résultat du méthode ACP et AFE je remarque que le deux


méthode donne la même résultat d’analyse de mon donnée.

3.3. Conclusion statistique générale


Le nombre de catégories devrait être augmenté afin de compter les
fréquences.
Certains items ( V7 V8 V9 V10 V11 V12 ) étaient corrélés
négativement avec l'échelle totale et devrait probablement être
inversé.

3.4. Conclusion scientifique générale

33

Vous aimerez peut-être aussi