0% ont trouvé ce document utile (0 vote)
22 vues23 pages

Projet R Hanad - Samadon

Le projet vise à évaluer la qualité de l'eau de 1000 sites d'approvisionnement en utilisant des méthodes statistiques pour analyser des données chimiques et géographiques. Les résultats montrent des disparités géographiques dans la qualité de l'eau, avec des variables clés comme le pH et les nitrates influençant la potabilité. Des recommandations pour des études futures incluent l'intégration de variables supplémentaires et l'utilisation de techniques de Machine Learning.

Transféré par

hanadmh.02
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues23 pages

Projet R Hanad - Samadon

Le projet vise à évaluer la qualité de l'eau de 1000 sites d'approvisionnement en utilisant des méthodes statistiques pour analyser des données chimiques et géographiques. Les résultats montrent des disparités géographiques dans la qualité de l'eau, avec des variables clés comme le pH et les nitrates influençant la potabilité. Des recommandations pour des études futures incluent l'intégration de variables supplémentaires et l'utilisation de techniques de Machine Learning.

Transféré par

hanadmh.02
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

HANAD – SAMADON ATID 1

Projet R
Introduction

L’accès à une eau de qualité constitue un enjeu fondamental pour la santé publique
notamment dans les régions où les ressources en eau sont limitées. Dans ce contexte, il est
urgent de pouvoir évaluer la qualité de l’eau des sources utilisées par les populations afin
d’assurer leur sécurité sanitaire.
Ce projet s’inscrit dans une démarche pédagogique visant à mettre en application les notions
statistiques étudiées en cours, à travers l’analyse de données fictives relatives à la potabilité
de l’eau sur le territoire national. Les données étudiées regroupent les caractéristiques
chimiques de 1000 sites d’approvisionnement en eau, ainsi que leur localisation
géographique.
L’objectif principal est de déterminer la qualité de l’eau de ces sites à partir de critères
chimiques normalisés, tout en identifiant leur répartition géographique et leur typologie.
Plusieurs méthodes statistiques seront mobilisées pour nettoyer, transformer et analyser ces
données, avec à la clé un classement des sites selon leur niveau de potabilité.

Sommaire

1. Apurement et corrections
1) Importation et apurement des données
2) Fusion des bases et traitement des valeurs manquantes
3) Valeurs manquantes

2. Transformations de la base de données


1) Creation de la variable commune
2) Creation de la variable qualite

3. Statistiques descriptives
1) Tableaux uni-variés
2) Graph bi-variés

4. Statistiques multidimensionnelles
1) Analyse par composant principale
2) Classification ascendante hierarchique
3) Comparaison des variables Qualité et Classe

5.
1) Interprétation générale des résultats
2) Limites de l’analyse
3) Recommandations pour des études futures

6. Conclusion
Package à installer :

Partie 1
#1)

Interprétation :
Cette étape consiste à importer les deux jeux de données dans R (les données chimiques et
les coordonnées GPS des sites). Une fois les données chargées, un apurement de base est
réalisé, ce qui comprend :
 Le renommage de certaines colonnes pour harmoniser les noms et faciliter leur
traitement.

 La suppression de doublons éventuels (si plusieurs lignes identiques existent).

 La vérification des types de variables (facteur, numérique, caractère) pour s’assurer


qu’ils sont bien reconnus dans R.

 L’inspection des premières lignes pour détecter des incohérences ou erreurs


grossières (ex. : des zéros aberrants, des valeurs négatives impossibles, etc.).
#2)
Interprétation :
Une fois les données nettoyées individuellement, il faut les fusionner (souvent via une
variable commune comme un identifiant de site ou un code GPS).
Puis, on identifie les valeurs manquantes :

 On détermine combien de valeurs sont absentes dans chaque variable.

 On choisit une stratégie pour y remédier : suppression des lignes/colonnes trop


incomplètes ou imputation (remplacement par la moyenne, médiane, ou un modèle
prédictif).

#3)

Interprétation :
Cette sous-partie approfondit l’analyse des valeurs manquantes :

 On visualise leur répartition (avec des packages comme VIM ou naniar).

 On identifie si ces valeurs sont manquantes de manière aléatoire ou systématique.

 Une attention particulière est portée à ne pas fausser les analyses statistiques
ultérieures en conservant trop de données incomplètes ou en utilisant des méthodes
d’imputation mal adaptées.
Partie 2
#1)
*

Interprétation :
Il s’agit de créer une variable d’identifiant unique pour chaque site (ex. : code_site) si elle
n’existe pas déjà, permettant la fusion, le tri, ou la localisation des sites. Cette variable est
cruciale pour suivre les sites tout au long de l’analyse.
#2)

Interprétation :
À partir des concentrations chimiques mesurées (nitrates, sodium, pH, etc.), une variable de
qualité de l’eau est créée.
Elle classe chaque site en trois catégories :

 Bonne qualité

 Qualité moyenne

 Mauvaise qualité

Cette classification repose sur des seuils normatifs, par exemple :


 Nitrates < 50 mg/L → acceptable

 pH entre 6.5 et 8.5 → conforme

 Sodium < 200 mg/L → bon

La variable "qualité" permet d’évaluer la conformité à la potabilité.

Partie 3 :
#1)

Interpretation :
- La moyenne et la médiane étant proches, la distribution est probablement symétrique.

- L’écart-type élevé indique une grande variabilité des concentrations en chlorure parmi les
sites.
- La plage de valeurs est large (de 10 à 250 mg/l), suggérant la présence de valeurs faibles
et très élevées (potentiellement des valeurs aberrantes à étudier).

- La majorité des valeurs se situe probablement autour de 115-120 mg/l, mais certains sites
présentent des concentrations très élevées.
#2)
#1e figure
#2e figure

#3e figure
Interpretation :
-Les graphiques de dispersion illustrent la présence de relations linéaires ou non entre
différents paramètres chimiques.

-Les paramètres tels que Cl, Na, et SO4 montrent souvent des liens liés à l’origine salée ou
industrielle.

-Le pH influence la dissolution de métaux comme le fer, ce qui peut avoir des implications
pour la corrosion des infrastructures.

-La force et la nature de ces relations aident à comprendre la qualité de l’eau, ses sources
de pollution et ses aspects géologiques ou anthropiques.

Partie
4:
#1)
Interprétation :
L’ACP permet de réduire la dimension des données (nombre de variables) tout en
conservant l’essentiel de l’information :

 On identifie quelles variables contribuent le plus à la variabilité.

 Exemple : si le nitrate, le sodium et le pH expliquent la majorité de la variance, ce


sont des variables clés pour la qualité de l’eau.

On peut aussi repérer des groupes de sites similaires sur les premiers plans factoriels.
#2)
Interprétation :
La CAH regroupe les sites en classes homogènes selon leurs profils chimiques :

 On construit un dendrogramme.

 Les sites sont répartis en 2, 3, ou 4 classes selon leur similarité.

 Cela offre une typologie alternative à la variable "qualité", en se basant uniquement


sur la structure des données.

3)
Interprétation :
On compare la classification statistique (issue de la CAH) avec la classification normative
("qualité" basée sur des seuils) :

 Cela permet de vérifier la cohérence entre les deux méthodes.

 Des divergences peuvent apparaître si certains sites sont proches statistiquement


mais franchissent juste un seuil critique.

 Cela montre l'intérêt de combiner approche normative et exploratoire.


#5

1) Interprétation générale des résultats

L’étude menée sur les 1000 sites d’approvisionnement en eau a permis d’aboutir à une
classification fiable des sources selon leur qualité chimique. L’attribution des sites à des
communes, selon les coordonnées GPS, a également permis de mettre en lumière des
disparités géographiques importantes. Par exemple, certains territoires comme Djibouti-ville
ou Arta concentrent un plus grand nombre de sites en "Bonne" ou "Moyenne" qualité, tandis
que d'autres comme Dikhil ou Obock présentent davantage de sites en "Mauvaise" qualité.

L’analyse en composantes principales (ACP) a révélé que certaines variables, notamment le


pH, le nitrate (NO3) et le sodium (Na), contribuent fortement à la variance globale, soulignant
leur importance dans la détermination de la qualité de l’eau. Par ailleurs, la classification
hiérarchique (CAH) a permis de regrouper les sites en classes homogènes selon leurs profils
chimiques, offrant un angle complémentaire d’analyse.

Enfin, la comparaison entre les variables Qualité (basée sur des seuils normatifs) et Classe
(issue de l’analyse statistique) montre une cohérence globale, bien que quelques
divergences apparaissent. Cela s’explique par le fait que la CAH prend en compte les
similarités globales entre observations, même si elles ne respectent pas strictement les
seuils.

2) Limites de l’analyse

Plusieurs limites sont à souligner dans ce projet. Tout d’abord, il s’agit de données fictives, ce
qui implique une interprétation prudente des résultats. Ensuite, le traitement des valeurs
manquantes peut influencer les résultats selon la méthode utilisée (suppression ou
imputation). De plus, la classification des sites en trois niveaux de qualité repose sur des
intervalles arbitraires : une approche plus fine aurait pu intégrer des indices composites ou
des normes de potabilité internationales.

Enfin, la localisation géographique repose uniquement sur des plages de coordonnées. Or,
des cartes SIG ou des données topographiques plus précises permettraient une affectation
plus rigoureuse des communes.

3) Recommandations pour des études futures

Pour renforcer l’analyse, plusieurs pistes peuvent être envisagées :

Intégrer des variables additionnelles (turbidité, température, bactéries, etc.) pour une
évaluation plus complète de la potabilité.

Utiliser des techniques de Machine Learning pour affiner la classification des sites.

Exploiter des cartes interactives ou outils SIG pour une visualisation plus dynamique des
résultats.

Comparer les résultats avec des données réelles issues de rapports sanitaires.
#6. Conclusion

Ce projet a permis de mettre en œuvre une démarche statistique complète, allant de


l’importation et du nettoyage de données à des analyses descriptives et
multidimensionnelles, afin d’évaluer la qualité de l’eau sur un ensemble de 1000 sites
répartis sur le territoire national.
Grâce aux différentes étapes méthodologiques, nous avons vu :
-Identifier les types de sources d’eau (puits, citernes, retenues naturelles) et les localiser
précisément par GPS ;
-Attribuer chaque site à une commune selon ses coordonnées ;
-Évaluer la qualité de l’eau à l’aide de seuils prédéfinis et classifier les sites en trois niveaux :
Bonne, Moyenne et Mauvaise qualité ;
-Réaliser une analyse en composantes principales pour mieux comprendre les relations
entre les variables chimiques ;
-Appliquer une classification ascendante hiérarchique afin de regrouper les sites selon leurs
caractéristiques chimiques dominantes.
Les résultats obtenus confirment l’intérêt d’une approche statistique pour la gestion des
ressources en eau. Ils mettent également en évidence l’importance de certaines variables
comme le nitrate ou le pH dans l’évaluation de la potabilité.

Vous aimerez peut-être aussi