0% ont trouvé ce document utile (0 vote)
34 vues18 pages

Analyses

Le document présente une analyse statistique des notes en bilinguisme et en entrepreneuriat d'élèves, en utilisant des méthodes telles que les tests de Wilcoxon-Mann-Whitney et de Kruskal-Wallis. Les résultats montrent des différences significatives dans les performances selon l'établissement scolaire et le sexe, avec des corrélations entre l'âge et les notes. Une régression linéaire multiple révèle que l'établissement scolaire a un impact significatif sur les performances en bilinguisme.

Transféré par

dyonta68
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
34 vues18 pages

Analyses

Le document présente une analyse statistique des notes en bilinguisme et en entrepreneuriat d'élèves, en utilisant des méthodes telles que les tests de Wilcoxon-Mann-Whitney et de Kruskal-Wallis. Les résultats montrent des différences significatives dans les performances selon l'établissement scolaire et le sexe, avec des corrélations entre l'âge et les notes. Une régression linéaire multiple révèle que l'établissement scolaire a un impact significatif sur les performances en bilinguisme.

Transféré par

dyonta68
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Analyses Jenner TATO

Dimitry Yonta

2025-06-25

Table of Contents

Méthodologie statistique
Les variables quantitatives ont été décrites à l’aide de la médiane et de
l’intervalle interquartile (IQR), après vérification de la distribution à l’aide
d’histogrammes et de courbes de densité, afin d’évaluer la normalité. Les
variables catégorielles ont été résumées sous forme de proportions dans des
tableaux de contingence.
Pour comparer les notes d’entrepreneuriat et de bilinguisme entre les
différentes modalités des variables explicatives catégorielles (comme le sexe
ou l’établissement scolaire), des tests non paramétriques ont été utilisés.
Plus précisément :
 Le test de Wilcoxon-Mann-Whitney a été utilisé pour comparer les
notes selon le sexe.
 Le test de Kruskal-Wallis a été utilisé pour comparer les notes de
bilinguisme entre les établissements scolaires.
La corrélation entre l’âge des élèves et les notes (en entrepreneuriat et
bilinguisme) a été évaluée à l’aide du coefficient de corrélation de
Spearman.
Enfin, pour étudier l’association entre l’établissement scolaire et les notes
obtenues, tout en ajustant pour le sexe et l’âge, une régression linéaire
multiple a été réalisée. Le modèle utilisé est le suivant :
note=β 0+ β 1 ⋅établissement+ β2 ⋅âge+ β3 ⋅sexe

 note : représente la note obtenue en entrepreneuriat (dans un premier


modèle) ou en bilinguisme (dans un second modèle) ;
 établissement : variable catégorielle représentant l’établissement
scolaire fréquenté ;
 âge : âge de l’élève (en années) ;
 sexe : sexe de l’élève.

Les coefficients β i expriment l’effet de chaque variable sur la note : - Pour les
variables catégorielles (établissement et sexe), le coefficient β indique la
différence de score par rapport à la modalité de référence. - Pour la variable
continue âge, le coefficient représente la variation moyenne de la note pour
chaque année d’âge supplémentaire.
## Type des donnees

#look_for(data)

## renommons les variables

data <- data %>%


rename( age = Q1, sexe = Q2, profession_parent = Q3,
note_bilinguisme = Q4, ecole = Q5 , note_entreu = Q6 )

## Verifications des valeurs manquantes

library(naniar)

gg_miss_var(data, show_pct = T)

Nous constatons la présence de valeurs manquantes dans les notes de


bilinguisme et d’entrepreneuriat. Environ 25 % des données sont
manquantes pour la variable note_bilinguisme et 50 % pour la variable
note_entreu (notes d’entrepreneuriat).
## Valeurs manquantes selon les etablissements

gg_miss_var( data, facet = ecole, show_pct = T)


L’évaluation en entrepreneuriat ne concernait que deux établissements :
l’école publique et l’école des Petits Génies. Cela explique l’absence de
données (valeurs manquantes) pour la variable note_entreu dans les écoles
TYSIM et Reference School.

Analyses descriptives
## Tendance centrale et de dispersion

library(rstatix)

data %>%
get_summary_stats(c(note_bilinguisme, note_entreu), type =
"common" )

## # A tibble: 2 × 10
## variable n min max median iqr mean sd se
ci
## <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
<dbl>
## 1 note_bilinguisme 105 4 18 10 5 11.0 3.36 0.328
0.65
## 2 note_entreu 71 0 95 9 6.25 10.8 11.0 1.31
2.60

105 élèves ont été soumis à l’épreuve de bilinguisme. Les notes variaient
entre 4 et 18, avec une médiane de 10 et un intervalle interquartile de 5.
D’un autre côté, 71 élèves ont été évalués à l’épreuve d’entrepreneuriat. Les
notes allaient de 0 à 95 (cette dernière étant une valeur aberrante), avec
une médiane de 9 et un intervalle interquartile non précisé.
## Corrigeons la valeur aberante de la variable note_entreu en
remplacant par la mediane qui est 9

data$note_entreu[data$note_entreu == 95] <- 9


## Histogramme des variables notes

### Notes bilinguisme


ggplot(data)+
aes( x = note_bilinguisme, y = ..density..)+
geom_histogram()+
geom_density( color = "red", size = 1)+
labs( x = "Notes de bilinguisme")+
theme_minimal()

### Notes entrepreuneuriat

ggplot(data)+
aes( x = note_entreu, y = ..density..)+
geom_histogram()+
geom_density( color = "red", size = 1)+
labs(x = "Notes d'entrepreuneuriat")+
theme_minimal()
Selon l’analyse graphique, aucune des distributions des notes n’était
normale.
## Boxplot univariee

note <- c("note_entreu", "note_bilinguisme")

for(i in note){

plot <- ggplot(data)+


aes( y = data[[i]])+
geom_boxplot()+
labs( y = i, title = str_glue( "Distribution des ", {i}))+
theme_minimal()+
theme([Link].x = element_blank())

print(plot)

}
## Corrigeons la valeur aberante de la variable note_entreu en
remplacant par la mediane qui est 9

data$note_entreu[data$note_entreu == 95] <- 9


Selon les boxplots ci-dessus, aucune valeur aberrante n’a été observée pour
les variables note de bilinguisme et note d’entrepreneuriat.

Resultats
Description des variables
data %>%
select(age,sexe,ecole,note_bilinguisme,note_entreu) %>%
tbl_summary( type = list(age ~ "continuous2")) %>%
bold_labels() %>%
italicize_labels()

Characteristic N = 1391
AGE
Median (Q1, Q3) 8.00 (8.00, 9.00)
SEXE
MASCULIN 63 (45%)
FEMININ 76 (55%)
ECOLE
REFERENCE SCHOOL 34 (24%)
ECOLE DES PETITS GENIES 34 (24%)
ECOLE TYSIM 34 (24%)
ECOLE PUBLIQUE 37 (27%)
NOTES BILINGUISME 10.0 (9.0, 14.0)
Unknown 34
NOTES ENTREPRENEURIAT 9.0 (7.0, 13.0)
Unknown 68
1
n (%); Median (Q1, Q3)

L’échantillon est composé de 139 élèves, dont l’âge médian est de 8 ans
(IQR : 8–9 ans), ce qui traduit une population relativement homogène sur le
plan de l’âge. La répartition par sexe est équilibrée, avec une légère majorité
de filles (55 %). Concernant la variable “école”, les élèves proviennent à
parts égales des quatre établissements étudiés, chacun représentant environ
24–27 % de l’échantillon. Les performances en bilinguisme présentent une
médiane de 10 (IQR : 9–14), avec 34 valeurs manquantes. En ce qui
concerne l’entrepreneuriat, la médiane est de 9 (IQR : 7–13), avec un taux
plus élevé de données manquantes (n = 68), principalement dû au fait que
certaines écoles n’avaient pas organisé cette évaluation.

Description de la profession des parents


data %>%
select(profession_parent) %>%
tbl_summary() %>%
bold_labels() %>%
italicize_labels()

Characteristic N = 1391
PROFESSION
CORPS MEDICAL 8 (5.8%)
CORPS ENSEIGNANT 24 (17%)
COMMERCANT 34 (24%)
FORCES ARMEES ET POLICE 13 (9.4%)
METIERS DE L'INFORMEL 28 (20%)
TRANSPORTEURS 5 (3.6%)
CADRE D'ADMINISTRATION 18 (13%)
SANS EMPLOI 5 (3.6%)
AGENT D'ADMINISTRATION 1 (0.7%)
AUTRES 3 (2.2%)
1
n (%)

La majorité des parents d’élèves exercent des professions issues du secteur


informel ou du commerce, avec respectivement 20 % dans les métiers de
l’informel et 24 % dans le commerce. Les professions relevant du secteur
public (corps enseignant, cadres ou agents d’administration, santé, forces
armées) représentent ensemble une proportion significative, indiquant une
certaine diversité socio-professionnelle. Les parents sans emploi ou dans des
professions marginales restent minoritaires.

Facteurs influencant la note de bilinguisme


## boxplot bivariee des notes du bilinguisme

kruskal_result <- [Link](note_bilinguisme~ecole, data = data)

pval <- round(kruskal_result$[Link], 4)

ggplot(data)+
aes( y = note_bilinguisme, fill = ecole)+
geom_boxplot()+
labs( y = "Notes du bilinguisme", title = str_glue( "Distribution
des notes de bilinguisme par ecole", fill = "Ecole", x = ""))+
annotate("text",
x = 0, y = max(data$note_bilinguisme, [Link] = TRUE) + 0.5,
label = paste0("Test de Kruskal-Wallis: p = ", pval),
size = 5, fontface = "italic", color = "black") +
theme_minimal(base_size = 13) +
theme(
[Link] = element_text(face = "bold", hjust = 0.5),
[Link] = "bottom",
[Link].x = element_blank())
Les notes de bilinguisme diffèrent significativement entre les établissements
scolaires. Selon l’analyse graphique, celles de la Reference School semblent
nettement plus élevées que celles de l’école publique et de TYSIM (p < 0,05).
wilcox_result <- [Link](note_bilinguisme~sexe, data = data)

pval <- round(wilcox_result$[Link], 4)

ggplot(data)+
aes( y = note_bilinguisme, fill = sexe)+
geom_boxplot()+
labs( y = "Notes du bilinguisme", title = str_glue( "Distribution
des notes de bilinguisme selon le sexe", fill = "Ecole", x = ""))+
annotate("text",
x = 0, y = max(data$note_bilinguisme, [Link] = TRUE) + 0.5,
label = paste0("Test de Wilcoxon : p = ", pval),
size = 5, fontface = "italic", color = "black") +
theme_minimal(base_size = 13) +
theme(
[Link] = element_text(face = "bold", hjust = 0.5),
[Link] = "bottom",
[Link].x = element_blank())

## Warning: Removed 34 rows containing non-finite outside the scale


range
## (`stat_boxplot()`).
Les notes de bilinguisme des garçons ne sont pas significativement
différentes de celles des filles (p = 0,083).
data %>%
select(note_bilinguisme, sexe) %>%
tbl_summary(by =sexe) %>%
modify_spanning_header(all_stat_cols() ~"**Sexe**") %>%
add_p() %>%
bold_labels() %>%
italicize_labels()

Sexe
Characteristic MASCULIN N = 631 FEMININ N = 761 p-value2
NOTES BILINGUISME 12.0 (9.0, 14.0) 10.0 (8.0, 13.0) 0.084
Unknown 14 20
1
Median (Q1, Q3)
2
Wilcoxon rank sum test
data %>%
#fct_drop(ecole) %>%
select(note_bilinguisme, ecole) %>%
tbl_summary(by =ecole) %>%
modify_spanning_header(all_stat_cols() ~"**Etablissement**") %>%
add_p() %>%
bold_labels() %>%
italicize_labels()
Etablissement
Characteristic REFERENCE ECOLE DES ECOLE TYSIM N = ECOLE PUBLIQUE p-value2
SCHOOL N = 341 PETITS GENIES N 341 N = 371
= 34 1

NOTES 14.0 (13.0, 15.5) NA (NA, NA) 10.0 (9.0, 10.5) 8.0 (7.0, 11.0) <0.001
BILINGUISME
Unknown 0 34 0 0
1
Median (Q1, Q3)
2
Kruskal-Wallis rank sum test
spearman_test <- [Link](data$age, data$note_bilinguisme, method =
"spearman", use = "[Link]")

r_spearman <- round(spearman_test$estimate, 2)


p_value <- spearman_test$[Link]

label_text <- paste0("Spearman r = ", r_spearman,


"\n", "p-value = ", signif(p_value, 3))

library(ggplot2)

ggplot(data, aes(x = age, y = note_bilinguisme)) +


geom_point( alpha = 0.6, size = 2) +
geom_smooth(method = "lm", se = FALSE, color = "darkred") +
annotate("text", x = min(data$age, [Link] = TRUE),
y = max(data$note_bilinguisme, [Link] = TRUE),
label = label_text, hjust = 0, size = 5) +
labs(
title = "Corrélation entre l'âge et la note de bilinguisme",
x = "Âge de l'élève",
y = "Note de bilinguisme"
) +
theme_minimal()
Regression lineaire multiple sur les notes du bilinguisme
## Explication des notes en bilinguisme

## Réordonnancement de data$ecole
data$ecole <- data$ecole |>
fct_relevel(
"ECOLE PUBLIQUE", "ECOLE TYSIM", "ECOLE DES PETITS GENIES",
"REFERENCE SCHOOL"
)

modele <- lm(note_bilinguisme~ecole+sexe+age, data = data)

tbl_regression(modele) %>%
italicize_labels() %>%
bold_labels()
Characteristic Beta 95% CI1 p-value
ecole
ECOLE PUBLIQUE — —
ECOLE TYSIM 0.34 -0.94, 1.6 0.6
REFERENCE SCHOOL 5.1 4.0, 6.2 <0.001
SEXE
MASCULIN — —
FEMININ -1.5 -2.4, -0.61 0.001
AGE -0.50 -0.93, -0.07 0.023
1
CI = Confidence Interval

Les résultats montrent une association significative entre l’établissement


scolaire fréquenté et les performances en bilinguisme. Comparée à l’école
publique (catégorie de référence), la Reference School est associée à une
augmentation moyenne de 5,1 points des notes de bilinguisme (IC95 % : 4,0
à 6,2 ; p < 0,001), ce qui reflète un effet positif fort et statistiquement
significatif. En revanche, aucune différence significative n’est observée pour
l’école TYSIM (β = 0,34 ; p = 0,6).
Concernant le sexe, les filles ont obtenu en moyenne des notes inférieures
de 1,5 point à celles des garçons (IC95 % : -2,4 à -0,61 ; p = 0,001),
indiquant une différence statistiquement significative. L’âge est également
associé négativement aux notes : chaque année supplémentaire est liée à
une baisse moyenne de 0,5 point (IC95 % : -0,93 à -0,07 ; p = 0,023),
suggérant une diminution modérée mais significative des performances avec
l’âge.

Facteurs influencant la note d’entrepreuneuriat


wilcox_result <- [Link](note_entreu~sexe, data = data)

## Warning in [Link](x = DATA[[1L]], y =


DATA[[2L]], ...): impossible
## de calculer la p-value exacte avec des ex-aequos

pval <- round(wilcox_result$[Link], 4)

ggplot(data)+
aes( y = note_entreu, fill = sexe)+
geom_boxplot()+
labs( y = "Notes entrepreuneuriat", title = str_glue( "Distribution
des notes d'entrepreuneuriat selon le sexe", fill = "Sexe", x = ""))+
annotate("text",
x = 0, y = max(data$note_bilinguisme, [Link] = TRUE) + 0.5,
label = paste0("Test de Wilcoxon : p = ", pval),
size = 5, fontface = "italic", color = "black") +
theme_minimal(base_size = 13) +
theme(
[Link] = element_text(face = "bold", hjust = 0.5),
[Link] = "bottom",
[Link].x = element_blank())

## Warning: Removed 68 rows containing non-finite outside the scale


range
## (`stat_boxplot()`).

 Les notes d’entrepreneuriat des garçons ne sont pas significativement


différentes de celles des filles (p = 0,24).
wilcox_result <- [Link](note_entreu~ecole, data = data)

## Warning in [Link](x = DATA[[1L]], y =


DATA[[2L]], ...): impossible
## de calculer la p-value exacte avec des ex-aequos

pval <- round(wilcox_result$[Link], 4)

ggplot(data)+
aes( y = note_entreu, fill = ecole)+
geom_boxplot()+
labs( y = "Notes entrepreuneuriat", title = str_glue( "Distribution
des notes d'entrepreuneuriat selon le sexe", fill = "Ecole", x = ""))+
annotate("text",
x = 0, y = max(data$note_bilinguisme, [Link] = TRUE) + 0.5,
label = paste0("Test de Wilcoxon : p = ", pval),
size = 5, fontface = "italic", color = "black") +
theme_minimal(base_size = 13) +
theme(
[Link] = element_text(face = "bold", hjust = 0.5),
[Link] = "bottom",
[Link].x = element_blank())

## Warning: Removed 68 rows containing non-finite outside the scale


range
## (`stat_boxplot()`).

 Les notes d’entrepreneuriat diffèrent significativement entre les


établissements scolaires. Selon l’analyse graphique, celles de l’école
des Petits Génies semblent nettement plus élevées que celles de
l’école publique (p < 0,05).
data %>%
select(note_entreu, sexe) %>%
tbl_summary(by =sexe) %>%
modify_spanning_header(all_stat_cols() ~"**Sexe**") %>%
add_p() %>%
bold_labels() %>%
italicize_labels()

## The following warnings were returned during `add_p()`:


## ! For variable `note_entreu` (`sexe`) and "estimate", "statistic",
"[Link]",
## "[Link]", and "[Link]" statistics: impossible de calculer la
p-value
## exacte avec des ex-aequos
## ! For variable `note_entreu` (`sexe`) and "estimate", "statistic",
"[Link]",
## "[Link]", and "[Link]" statistics: impossible de calculer
les
## intervalles de confiance exacts avec des ex-aequos

Sexe
Characteristic MASCULIN N = 631 FEMININ N = 761 p-value2
NOTES ENTREPRENEURIAT 9.0 (7.0, 15.0) 9.0 (7.0, 13.0) 0.2
Unknown 33 35
1
Median (Q1, Q3)
2
Wilcoxon rank sum test
data %>%
#fct_drop(ecole) %>%
select(note_entreu, ecole) %>%
tbl_summary(by =ecole) %>%
modify_spanning_header(all_stat_cols() ~"**Etablissement**") %>%
add_p() %>%
bold_labels() %>%
italicize_labels()

Etablissement
Characteristic ECOLE PUBLIQUE ECOLE TYSIM N = ECOLE DES REFERENCE p-value2
N = 371 341 PETITS GENIES N SCHOOL N = 341
= 341
NOTES 7.0 (6.0, 9.0) NA (NA, NA) 13.0 (9.0, 15.0) NA (NA, NA) <0.001
ENTREPRENEURI
AT
Unknown 0 34 0 34
1
Median (Q1, Q3)
2
Kruskal-Wallis rank sum test
spearman_test <- [Link](data$age, data$note_entreu, method =
"spearman", use = "[Link]")

r_spearman <- round(spearman_test$estimate, 2)


p_value <- spearman_test$[Link]

label_text <- paste0("Spearman r = ", r_spearman,


"\n", "p-value = ", signif(p_value, 3))

library(ggplot2)

ggplot(data, aes(x = age, y = note_entreu)) +


geom_point( alpha = 0.6, size = 2) +
geom_smooth(method = "lm", se = FALSE, color = "darkred") +
annotate("text", x = min(data$age, [Link] = TRUE),
y = max(data$note_bilinguisme, [Link] = TRUE),
label = label_text, hjust = 0, size = 5) +
labs(
title = "Corrélation entre l'âge et la note d'entrepreuneuriat",
x = "Âge de l'élève",
y = "Note d'entrepreuneuriat"
) +
theme_minimal()

Regression lineaire multiple sur les notes d’entrepreuneuriat


## Explication des notes en entrepreneuriat

modele <- lm(note_entreu~ecole+sexe+age, data = data)

#summary(modele)

tbl_regression(modele) %>%
italicize_labels() %>%
bold_labels()
Characteristic Beta 95% CI1 p-value
ecole
ECOLE PUBLIQUE — —
ECOLE DES PETITS 3.9 1.9, 5.8 <0.001
GENIES
SEXE
MASCULIN — —
FEMININ -1.6 -3.5, 0.18 0.077
AGE -0.38 -1.1, 0.37 0.3
1
CI = Confidence Interval
 Les élèves de l’école Petits genies ont, en moyenne, 3.9 points de plus
en entrepreneuriat que ceux des écoles publiques (référence),
independament du sexe et de l’age de l’eleve. Cette différence est
hautement significative.

 Les filles obtiennent en moyenne 1.6 point de moins que les garçons,
mais cette différence n’est pas statistiquement significative au seuil de
5% (p = 0.077).

 Chaque année supplémentaire d’âge est associée à une baisse


moyenne non significative de 0.38 point sur la note d’entrepreneuriat.

Conclusion: L’école fréquentée est un facteur fortement associé à la


performance en entrepreneuriat. Les élèves de l’École des Petits Génies
réussissent significativement mieux que ceux des écoles publiques.

Vous aimerez peut-être aussi