0% ont trouvé ce document utile (0 vote)
29 vues23 pages

Projet Math

Ce document présente un projet de fin de module axé sur l'analyse de données avec le logiciel R, en mettant l'accent sur des techniques telles que le reshaping, la modélisation statistique et l'analyse de Big Data. Il décrit les fonctionnalités de R, son installation, ainsi que des méthodes pratiques pour manipuler et visualiser des données. Le projet vise à renforcer la compréhension des outils statistiques et expérimentaux en ingénierie et science des données.

Transféré par

khaddormounia
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
29 vues23 pages

Projet Math

Ce document présente un projet de fin de module axé sur l'analyse de données avec le logiciel R, en mettant l'accent sur des techniques telles que le reshaping, la modélisation statistique et l'analyse de Big Data. Il décrit les fonctionnalités de R, son installation, ainsi que des méthodes pratiques pour manipuler et visualiser des données. Le projet vise à renforcer la compréhension des outils statistiques et expérimentaux en ingénierie et science des données.

Transféré par

khaddormounia
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

1.

INTRODUCTION :
L’analyse de données joue un rôle fondamental dans divers domaines scientifiques et
techniques. Avec l’essor du Big Data et des méthodes statistiques avancées, l'utilisation
d'outils performants est devenue essentielle pour extraire des informations pertinentes et
optimiser les prises de décision.

Ce projet de fin de module s'inscrit dans cette dynamique en explorant l’utilisation du


logiciel R, un langage de programmation puissant et largement utilisé en analyse de
données, statistique et modélisation mathématique. L’objectif principal est d’appliquer les
concepts étudiés dans le module "Mathématiques pour l’ingénieur avec le logiciel R", en
mettant en pratique des techniques d'exploration de données, de modélisation statistique et
de plans d'expérience (DoE - Design of Experiments).

Le projet se divise en plusieurs parties :

 La première partie est consacrée à l’introduction du logiciel R, en explorant ses


fonctionnalités et en appliquant des méthodes d’analyse statistique sur des jeux de
données, notamment via des techniques de restructuration (reshaping) et
d’exploration.
 La deuxième partie porte sur la modélisation et l’optimisation expérimentale grâce
aux plans d’expérience, appliqués à l’étude des propriétés mécaniques des
matériaux.
 Une troisième partie optionnelle propose une approche avancée incluant l’analyse
spatiale, la cartographie en Big Data et l’exploitation du format NetCDF pour
l’analyse de données climatiques.

À travers ces travaux, ce projet vise à renforcer la compréhension des outils statistiques et
expérimentaux sous R, tout en illustrant leur pertinence pour la résolution de problèmes
concrets en ingénierie et en science des données.
[Link] I : Introduction au logiciel R
2.1. Explication de l’environnement R :
Présentation du logiciel R :

R est un langage de programmation et un environnement logiciel dédié à l’analyse


statistique, à la manipulation de données et à la modélisation graphique. Il est largement
utilisé dans les domaines de la recherche scientifique, de l’ingénierie et de la data science en
raison de sa puissance et de sa flexibilité.

Développé à l'origine par Ross Ihaka et Robert Gentleman, R est un logiciel libre distribué
sous licence GNU GPL, ce qui permet à une vaste communauté d’utilisateurs et de
développeurs de contribuer à son amélioration continue.

Caractéristiques principales de R

 Langage orienté statistique : R est spécialement conçu pour l’analyse de données et


inclut de nombreuses fonctions statistiques intégrées (statistiques descriptives,
régressions, tests d’hypothèses, etc.).
 Manipulation et visualisation de données : Grâce à des packages comme ggplot2,
dplyr et tidyverse, R permet une gestion avancée des bases de données et la création
de graphiques interactifs et professionnels.
 Extensibilité via les packages : L’un des points forts de R est sa capacité à être
étendu via des milliers de packages disponibles sur CRAN (Comprehensive R Archive
Network), qui couvrent des domaines variés comme l’apprentissage automatique,
l’économétrie et la bioinformatique.
 Interopérabilité : R peut être intégré à d’autres langages de programmation comme
Python, C++, Java et SQL, facilitant ainsi l’analyse dans des environnements mixtes.

Installation et Configuration de R

Installation de R

Pour utiliser R, il est nécessaire de télécharger et d’installer :

1. R : Disponible sur le site officiel de CRAN ([Link]


2. RStudio (optionnel mais recommandé) : Un environnement de développement
intégré (IDE) qui facilite l’écriture et l’exécution de scripts R
([Link]

Interface de RStudio

Une fois installé, RStudio offre une interface graphique composée de plusieurs volets :

 Console : Permet d’exécuter directement des commandes R.


 Editeur de script : Permet d’écrire et de sauvegarder des programmes.
 Environnement et Historique : Affiche les variables et les commandes utilisées.
 Graphiques et Fichiers : Permet d'afficher des visualisations et de gérer les fichiers de
travail.

Premier contact avec R : Commandes de base

Voici quelques commandes de base à exécuter dans la console R :


# Charger un package (exemple : ggplot2)
Dans R :
[Link]("ggplot2") # Installation
library(ggplot2) # Chargement du package

L’environnement R est un outil puissant pour l’analyse de données et la modélisation


statistique. Grâce à ses nombreuses fonctionnalités, il offre une flexibilité inégalée pour
traiter des jeux de données complexes, créer des visualisations avancées et développer des
algorithmes d’apprentissage automatique. Dans les prochaines sections, nous explorerons
en détail ses capacités en matière d’analyse de données et de modélisation expérimentale.

2.2. Application des techniques de reshaping (melt, dcast, etc.)

Introduction au reshaping des données :

Dans l’analyse de données, la structure des tableaux peut varier en fonction des besoins
d’analyse. Le reshaping consiste à transformer un jeu de données d’un format large (wide
format) vers un format long (long format), ou inversement. Cette transformation est
essentielle pour faciliter certaines analyses et visualisations.

Dans R, le package reshape2 fournit deux fonctions principales pour restructurer les
données :

 melt() : Convertit un jeu de données du format large vers le format long.


 dcast() : Convertit un jeu de données du format long vers le format large.

2.3. Étude de cas : manipulation du dataset "iris"

Chargement des données et préparation :

Nous allons utiliser le jeu de données intégré iris, qui contient des mesures de différentes
espèces

Charger les bibliothèques nécessaires :


Charger le jeu de données iris :

Le jeu de données iris est sous format large, où chaque variable est une colonne. Nous allons
le transformer en format long à l’aide de melt().

Utilisation de melt() : transformation en format long :

La fonction melt() permet de convertir plusieurs colonnes en une seule colonne de valeurs, ce
qui est utile pour certaines analyses statistiques et visualisations.
Explication du code :

 [Link] = "Species" : La colonne "Species" est conservée comme variable d’identification.


 Les autres colonnes ([Link], [Link], etc.) sont fusionnées en deux colonnes :
o variable : contenant les noms des anciennes colonnes.
o value : contenant les valeurs correspondantes.

Avant melt() (format large) :

Species [Link] [Link] [Link] [Link]

Setosa 5.1 3.5 1.4 0.2

Setosa 4.9 3.0 1.4 0.2

Après melt() (format long) :

Species variable value

Setosa [Link] 5.1

Setosa [Link] 3.5

Setosa [Link] 1.4

Setosa [Link] 0.2

Utilisation de dcast() : transformation en format large :


La fonction dcast() permet de revenir à un format large après transformation.

Explication du code :

 Species ~ variable : Cette syntaxe signifie que l’on veut conserver "Species" comme
variable principale et réorganiser les colonnes en fonction des anciennes variables
transformées.
 mean : Ici, on applique une moyenne des valeurs par espèce, mais on peut utiliser
d’autres fonctions d’agrégation comme sum, median, etc.

Avant dcast() (format long) :

Species variable value

Setosa [Link] 5.1

Setosa [Link] 3.5

Setosa [Link] 1.4

Setosa [Link] 0.2

Après dcast() (format large) :

Species [Link] [Link] [Link] [Link]

Setosa 5.006 3.428 1.462 0.246

Versicolor 5.936 2.770 4.260 1.326

Virginica 6.588 2.974 5.552 2.026


Les techniques de reshaping permettent de manipuler facilement des jeux de données et de
les adapter aux analyses souhaitées.

 melt() est utile pour convertir un format large en format long, ce qui facilite certaines
visualisations et analyses statistiques.
 dcast() permet de restructurer les données en format large après un traitement
spécifique.

Ces méthodes sont particulièrement utiles dans les études de Big Data, où l’organisation des
données peut fortement impacter la qualité des analyses.
2.4 Introduction à l’analyse de Big Data sous R :
1. Introduction au Big Data :

Le Big Data désigne un ensemble volumineux et complexe de données qui ne peuvent pas
être traitées efficacement avec des outils classiques de gestion de bases de données. Ces
données proviennent de diverses sources, notamment les réseaux sociaux, les capteurs, les
transactions financières et les systèmes de surveillance.

Les caractéristiques du Big Data sont souvent résumées en 5V :

 Volume : Quantité massive de données générées chaque seconde.


 Vélocité : Vitesse à laquelle les données sont produites et traitées.
 Variété : Diversité des formats de données (structurées, semi-structurées, non
structurées).
 Véracité : Fiabilité et qualité des données.
 Valeur : Capacité à extraire des informations pertinentes et exploitables.

L’objectif de l’analyse de Big Data est d’exploiter ces données massives pour en tirer des
insights utiles à la prise de décision.

2. Outils R pour le Big Data :


R propose plusieurs packages optimisés pour traiter de grandes
quantités de données efficacement. Parmi eux, on retrouve :

 [Link] : Manipulation rapide et efficace de grandes bases de données.


 ff : Permet de stocker et d’analyser des données plus grandes que la mémoire RAM.
 bigmemory : Gère les matrices volumineuses en mémoire partagée.
 sparklyr : Intègre Apache Spark, un moteur de calcul distribué.
 RevoScaleR : Proposé par Microsoft R, il optimise le traitement parallèle des données
massives.

[Link] des bibliothèques pour l’analyse de Big Data sous R :

 [Link] : Manipulation efficace des grandes bases de données

Le package [Link] est une extension du [Link] qui permet une manipulation rapide
et optimisée des grands jeux de données. Il est particulièrement utile pour le filtrage, le tri,
l’agrégation et le regroupement de données volumineuses.

Principales fonctionnalités :

 Chargement rapide des fichiers volumineux avec fread()


 Sélection et filtrage efficaces des données
 Agrégation et résumé statistique optimisés

Exemple d’utilisation :

Dans cet exemple, nous allons utiliser le jeu de données 'nutriage', qui contient des données
volumineuses, afin d'exploiter ces packages.

Le package readxl en R est utilisé pour lire des fichiers Excel (.xlsx et .xls) sans nécessiter
Microsoft Excel ou d'autres logiciels externes.

Charger les bibliothèques nécessaires


Lire un fichier Excel :

Convertir en [Link] :

Filtrer les données :

Agréger les données par le poids:


Explication de code :

 dt_data[, ...] → Cela signifie qu'on applique une opération sur dt_data.
 (taille_Moyen = mean(taille)) → On crée une nouvelle colonne taille_Moyen qui
contient la moyenne de la colonne taille.
 by= poids → On regroupe les données par poids, donc on calcule la taille moyenne
pour chaque valeur unique de poids.

 head(...)Affiche les 6 premières lignes du résultat pour voir un aperçu.

Le package RevoScaleR et son installation :

Introduction :

Le package RevoScaleR est un package essentiel pour le traitement des données


volumineuses dans Microsoft R. Il est optimisé pour exécuter des calculs en parallèle et
exploiter les ressources des serveurs haute performance, ce qui le rend idéal pour les
applications analytiques à grande échelle.

Fonctionnalités essentielles de RevoScaleR :

Le package RevoScaleR offre plusieurs fonctions importantes, notamment :

 rxImport() : Importation efficace de gros volumes de données.


 rxDataStep() : Manipulation et transformation des données.
 rxSummary() : Génération de statistiques descriptives sur de grands ensembles de
données.
 rxLinMod() : Régression linéaire sur des données volumineuses.
 rxLogit() : Régression logistique pour l'analyse prédictive.
 rxGlm() : Modèles linéaires généralisés pour les données massives.

Installation de RevoScaleR :
Le package RevoScaleR ne peut pas être installé directement via CRAN (le gestionnaire de
packages de R), car il fait partie de Microsoft Machine Learning Server (anciennement
Microsoft R Server).

Méthode d'installation :

Voici les étapes détaillées pour installer le package RevoScaleR en utilisant VirtualBox et
Cloudera QuickStart :

Étapes pour installer le package RevoScaleR

Étape 1 : Installation et lancement de VirtualBox

Téléchargez Oracle VM VirtualBox depuis le site officiel :

🔗 [Link]

Puis choisir la version convenable avec notre système d’exploitation (Windows , OS ,


Linux, ect…) (par exemple Windows hots).Apres l’installation, on doit trouver une
page d’accueil comme celle-ci :

Étape 2 : Installation de Cloudera QuickStart

Téléchargez l’image de la machine virtuelle Cloudera QuickStart VM depuis le site de


Cloudera.

Elle se compose de deux édition, l’offre Express et l’offre Entreprise. La première et


très limitée et se trouve dans la page web suivante :

Cloudera QuickStart VM 5.13

Prérequis pour l'installation de Cloudera : 1. **Mémoire RAM** : Minimum 12 Go (4Go


pour le système d'exploitation + 8 Go pour Cloudera). Il est recommandé d'avoir 16 Go.
Pour installer Cloudera, il faut télécharger les <<QuickStarts>>, et cliquer sur <<Download
Now>> (Télécharger maintenant).

Puis, extrayez le fichier <<[Link]>> télécharger. Le zip


extrait doit avoir le <<[Link]>>.

Étape 3 : Configuration de Cloudera QuickStart sur VirtualBox :


Cette image montre l'interface de création d'une machine virtuelle dans VirtualBox pour
installer Cloudera QuickStart. Voici les étapes expliquées :Étapes de configuration de la
machine virtuelle :

1. Nom et système d'exploitation :


o Le nom de la machine virtuelle est défini comme Cloudera.
o Le dossier où seront stockés les fichiers de la machine virtuelle est indiqué (C:\Users\
Mounia Khaddour\VirtualBox VMs).
o L’image ISO n’est pas encore sélectionnée (elle devra être ajoutée plus tard).

2. Type et version du système d’exploitation :


o Le type est défini sur Linux.
o Le sous-type est Oracle Linux.
o La version choisie est Oracle Linux (64-bit), ce qui correspond bien à Cloudera
QuickStart, qui tourne sous CentOS (une variante de Linux basée sur Red Hat).

3. Boutons de navigation :
o Précédent : Pour revenir à l’étape précédente.
o Finish : Pour finaliser la configuration et créer la machine virtuelle.
o Annuler : Pour annuler la création de la machine.

Prochaine étape :

Après avoir configuré ces paramètres, il faudra :

 Ajouter l’image ISO de Cloudera QuickStart.


 Ajuster la mémoire et les ressources allouées à la machine virtuelle.
 Démarrer la machine et installer Cloudera.

Ensuite, il est recommandé de cliquer sur le bouton < configuration > suivi d'une clique sur
l'onglet "Avancé" dans la catégorie "Général" et choisir l'option ‘’bidirectionnelle ‘’ pour les
éléments : "Presse-papiers partagés"' et "Glisser Déposer" :

Ensuite, appuyez sur le bouton ‘Démarrer’ avec la flèche verte en haut de l’interface graphique de
VirtualBox
Étape 4 : Installation de Microsoft R Client

1. Téléchargez Microsoft R Client depuis le site officiel de Microsoft.


2. Installez Microsoft R Client sur votre machine hôte (Windows/Linux).
3. Configurez Microsoft R Client pour interagir avec Cloudera QuickStart si nécessaire.

Une fois ces étapes terminées, vous devriez être en mesure d’utiliser RevoScaleR dans un
environnement Big Data avec Cloudera et VirtualBox. 🚀

Conclusion

Le package RevoScaleR est un outil puissant pour l'analyse de données volumineuses, mais il
nécessite l'installation de logiciels spécifiques de Microsoft. En suivant les étapes
mentionnées, il est possible de l'installer et de l'utiliser efficacement pour des analyses
avancées.

Si vous avez besoin de modifications ou d'ajouts, dites-moi ! 😊

.Conclusion

L’analyse de Big Data sous R est facilitée par des packages optimisés qui permettent de traiter
efficacement des volumes massifs d’informations. Grâce à [Link], ff, bigmemory et
RevoScaleR, R devient un outil puissant pour l’analyse statistique et la prise de décision
basée sur de grandes bases de données.
L’intégration avec Apache Spark via sparklyr permet également d’exploiter la puissance du
calcul distribué pour traiter des jeux de données dépassant les capacités d’un seul ordinateur.

Vous aimerez peut-être aussi