0% ont trouvé ce document utile (0 vote)

29 vues23 pages

Projet Math

Ce document présente un projet de fin de module axé sur l'analyse de données avec le logiciel R, en mettant l'accent sur des techniques telles que le reshaping, la modélisation statistique et l'analyse de Big Data. Il décrit les fonctionnalités de R, son installation, ainsi que des méthodes pratiques pour manipuler et visualiser des données. Le projet vise à renforcer la compréhension des outils statistiques et expérimentaux en ingénierie et science des données.

Transféré par

khaddormounia

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

29 vues23 pages

Projet Math

Transféré par

khaddormounia

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

1.

INTRODUCTION :
L’analyse de données joue un rôle fondamental dans divers domaines scientifiques et
techniques. Avec l’essor du Big Data et des méthodes statistiques avancées, l'utilisation
d'outils performants est devenue essentielle pour extraire des informations pertinentes et
optimiser les prises de décision.

Ce projet de fin de module s'inscrit dans cette dynamique en explorant l’utilisation du

logiciel R, un langage de programmation puissant et largement utilisé en analyse de
données, statistique et modélisation mathématique. L’objectif principal est d’appliquer les
concepts étudiés dans le module "Mathématiques pour l’ingénieur avec le logiciel R", en
mettant en pratique des techniques d'exploration de données, de modélisation statistique et
de plans d'expérience (DoE - Design of Experiments).

Le projet se divise en plusieurs parties :

 La première partie est consacrée à l’introduction du logiciel R, en explorant ses

fonctionnalités et en appliquant des méthodes d’analyse statistique sur des jeux de
données, notamment via des techniques de restructuration (reshaping) et
d’exploration.
 La deuxième partie porte sur la modélisation et l’optimisation expérimentale grâce
aux plans d’expérience, appliqués à l’étude des propriétés mécaniques des
matériaux.
 Une troisième partie optionnelle propose une approche avancée incluant l’analyse
spatiale, la cartographie en Big Data et l’exploitation du format NetCDF pour
l’analyse de données climatiques.

À travers ces travaux, ce projet vise à renforcer la compréhension des outils statistiques et
expérimentaux sous R, tout en illustrant leur pertinence pour la résolution de problèmes
concrets en ingénierie et en science des données.
[Link] I : Introduction au logiciel R
2.1. Explication de l’environnement R :
Présentation du logiciel R :

R est un langage de programmation et un environnement logiciel dédié à l’analyse

statistique, à la manipulation de données et à la modélisation graphique. Il est largement
utilisé dans les domaines de la recherche scientifique, de l’ingénierie et de la data science en
raison de sa puissance et de sa flexibilité.

Développé à l'origine par Ross Ihaka et Robert Gentleman, R est un logiciel libre distribué
sous licence GNU GPL, ce qui permet à une vaste communauté d’utilisateurs et de
développeurs de contribuer à son amélioration continue.

Caractéristiques principales de R

 Langage orienté statistique : R est spécialement conçu pour l’analyse de données et

inclut de nombreuses fonctions statistiques intégrées (statistiques descriptives,
régressions, tests d’hypothèses, etc.).
 Manipulation et visualisation de données : Grâce à des packages comme ggplot2,
dplyr et tidyverse, R permet une gestion avancée des bases de données et la création
de graphiques interactifs et professionnels.
 Extensibilité via les packages : L’un des points forts de R est sa capacité à être
étendu via des milliers de packages disponibles sur CRAN (Comprehensive R Archive
Network), qui couvrent des domaines variés comme l’apprentissage automatique,
l’économétrie et la bioinformatique.
 Interopérabilité : R peut être intégré à d’autres langages de programmation comme
Python, C++, Java et SQL, facilitant ainsi l’analyse dans des environnements mixtes.

Installation et Configuration de R

Installation de R

Pour utiliser R, il est nécessaire de télécharger et d’installer :

1. R : Disponible sur le site officiel de CRAN ([Link]

2. RStudio (optionnel mais recommandé) : Un environnement de développement
intégré (IDE) qui facilite l’écriture et l’exécution de scripts R
([Link]

Interface de RStudio

Une fois installé, RStudio offre une interface graphique composée de plusieurs volets :

 Console : Permet d’exécuter directement des commandes R.

 Editeur de script : Permet d’écrire et de sauvegarder des programmes.
 Environnement et Historique : Affiche les variables et les commandes utilisées.
 Graphiques et Fichiers : Permet d'afficher des visualisations et de gérer les fichiers de
travail.

Premier contact avec R : Commandes de base

Voici quelques commandes de base à exécuter dans la console R :

# Charger un package (exemple : ggplot2)
Dans R :
[Link]("ggplot2") # Installation
library(ggplot2) # Chargement du package

L’environnement R est un outil puissant pour l’analyse de données et la modélisation

statistique. Grâce à ses nombreuses fonctionnalités, il offre une flexibilité inégalée pour
traiter des jeux de données complexes, créer des visualisations avancées et développer des
algorithmes d’apprentissage automatique. Dans les prochaines sections, nous explorerons
en détail ses capacités en matière d’analyse de données et de modélisation expérimentale.

2.2. Application des techniques de reshaping (melt, dcast, etc.)

Introduction au reshaping des données :

Dans l’analyse de données, la structure des tableaux peut varier en fonction des besoins
d’analyse. Le reshaping consiste à transformer un jeu de données d’un format large (wide
format) vers un format long (long format), ou inversement. Cette transformation est
essentielle pour faciliter certaines analyses et visualisations.

Dans R, le package reshape2 fournit deux fonctions principales pour restructurer les
données :

 melt() : Convertit un jeu de données du format large vers le format long.

 dcast() : Convertit un jeu de données du format long vers le format large.

2.3. Étude de cas : manipulation du dataset "iris"

Chargement des données et préparation :

Nous allons utiliser le jeu de données intégré iris, qui contient des mesures de différentes
espèces

Charger les bibliothèques nécessaires :

Charger le jeu de données iris :

Le jeu de données iris est sous format large, où chaque variable est une colonne. Nous allons
le transformer en format long à l’aide de melt().

Utilisation de melt() : transformation en format long :

La fonction melt() permet de convertir plusieurs colonnes en une seule colonne de valeurs, ce
qui est utile pour certaines analyses statistiques et visualisations.
Explication du code :

 [Link] = "Species" : La colonne "Species" est conservée comme variable d’identification.

 Les autres colonnes ([Link], [Link], etc.) sont fusionnées en deux colonnes :
o variable : contenant les noms des anciennes colonnes.
o value : contenant les valeurs correspondantes.

Avant melt() (format large) :

Species [Link] [Link] [Link] [Link]

Setosa 5.1 3.5 1.4 0.2

Setosa 4.9 3.0 1.4 0.2

Après melt() (format long) :

Species variable value

Setosa [Link] 5.1

Setosa [Link] 3.5

Setosa [Link] 1.4

Setosa [Link] 0.2

Utilisation de dcast() : transformation en format large :

La fonction dcast() permet de revenir à un format large après transformation.

Explication du code :

 Species ~ variable : Cette syntaxe signifie que l’on veut conserver "Species" comme
variable principale et réorganiser les colonnes en fonction des anciennes variables
transformées.
 mean : Ici, on applique une moyenne des valeurs par espèce, mais on peut utiliser
d’autres fonctions d’agrégation comme sum, median, etc.

Avant dcast() (format long) :

Species variable value

Setosa [Link] 5.1

Setosa [Link] 3.5

Setosa [Link] 1.4

Setosa [Link] 0.2

Après dcast() (format large) :

Species [Link] [Link] [Link] [Link]

Setosa 5.006 3.428 1.462 0.246

Versicolor 5.936 2.770 4.260 1.326

Virginica 6.588 2.974 5.552 2.026

Les techniques de reshaping permettent de manipuler facilement des jeux de données et de
les adapter aux analyses souhaitées.

 melt() est utile pour convertir un format large en format long, ce qui facilite certaines
visualisations et analyses statistiques.
 dcast() permet de restructurer les données en format large après un traitement
spécifique.

Ces méthodes sont particulièrement utiles dans les études de Big Data, où l’organisation des
données peut fortement impacter la qualité des analyses.
2.4 Introduction à l’analyse de Big Data sous R :
1. Introduction au Big Data :

Le Big Data désigne un ensemble volumineux et complexe de données qui ne peuvent pas
être traitées efficacement avec des outils classiques de gestion de bases de données. Ces
données proviennent de diverses sources, notamment les réseaux sociaux, les capteurs, les
transactions financières et les systèmes de surveillance.

Les caractéristiques du Big Data sont souvent résumées en 5V :

 Volume : Quantité massive de données générées chaque seconde.

 Vélocité : Vitesse à laquelle les données sont produites et traitées.
 Variété : Diversité des formats de données (structurées, semi-structurées, non
structurées).
 Véracité : Fiabilité et qualité des données.
 Valeur : Capacité à extraire des informations pertinentes et exploitables.

L’objectif de l’analyse de Big Data est d’exploiter ces données massives pour en tirer des
insights utiles à la prise de décision.

2. Outils R pour le Big Data :

R propose plusieurs packages optimisés pour traiter de grandes
quantités de données efficacement. Parmi eux, on retrouve :

 [Link] : Manipulation rapide et efficace de grandes bases de données.

 ff : Permet de stocker et d’analyser des données plus grandes que la mémoire RAM.
 bigmemory : Gère les matrices volumineuses en mémoire partagée.
 sparklyr : Intègre Apache Spark, un moteur de calcul distribué.
 RevoScaleR : Proposé par Microsoft R, il optimise le traitement parallèle des données
massives.

[Link] des bibliothèques pour l’analyse de Big Data sous R :

 [Link] : Manipulation efficace des grandes bases de données

Le package [Link] est une extension du [Link] qui permet une manipulation rapide
et optimisée des grands jeux de données. Il est particulièrement utile pour le filtrage, le tri,
l’agrégation et le regroupement de données volumineuses.

Principales fonctionnalités :

 Chargement rapide des fichiers volumineux avec fread()

 Sélection et filtrage efficaces des données
 Agrégation et résumé statistique optimisés

Exemple d’utilisation :

Dans cet exemple, nous allons utiliser le jeu de données 'nutriage', qui contient des données
volumineuses, afin d'exploiter ces packages.

Le package readxl en R est utilisé pour lire des fichiers Excel (.xlsx et .xls) sans nécessiter
Microsoft Excel ou d'autres logiciels externes.

Charger les bibliothèques nécessaires

Lire un fichier Excel :

Convertir en [Link] :

Filtrer les données :

Agréger les données par le poids:

Explication de code :

 dt_data[, ...] → Cela signifie qu'on applique une opération sur dt_data.
 (taille_Moyen = mean(taille)) → On crée une nouvelle colonne taille_Moyen qui
contient la moyenne de la colonne taille.
 by= poids → On regroupe les données par poids, donc on calcule la taille moyenne
pour chaque valeur unique de poids.

 head(...)Affiche les 6 premières lignes du résultat pour voir un aperçu.

Le package RevoScaleR et son installation :

Introduction :

Le package RevoScaleR est un package essentiel pour le traitement des données

volumineuses dans Microsoft R. Il est optimisé pour exécuter des calculs en parallèle et
exploiter les ressources des serveurs haute performance, ce qui le rend idéal pour les
applications analytiques à grande échelle.

Fonctionnalités essentielles de RevoScaleR :

Le package RevoScaleR offre plusieurs fonctions importantes, notamment :

 rxImport() : Importation efficace de gros volumes de données.

 rxDataStep() : Manipulation et transformation des données.
 rxSummary() : Génération de statistiques descriptives sur de grands ensembles de
données.
 rxLinMod() : Régression linéaire sur des données volumineuses.
 rxLogit() : Régression logistique pour l'analyse prédictive.
 rxGlm() : Modèles linéaires généralisés pour les données massives.

Installation de RevoScaleR :
Le package RevoScaleR ne peut pas être installé directement via CRAN (le gestionnaire de
packages de R), car il fait partie de Microsoft Machine Learning Server (anciennement
Microsoft R Server).

Méthode d'installation :

Voici les étapes détaillées pour installer le package RevoScaleR en utilisant VirtualBox et
Cloudera QuickStart :

Étapes pour installer le package RevoScaleR

Étape 1 : Installation et lancement de VirtualBox

Téléchargez Oracle VM VirtualBox depuis le site officiel :

🔗 [Link]

Puis choisir la version convenable avec notre système d’exploitation (Windows , OS ,

Linux, ect…) (par exemple Windows hots).Apres l’installation, on doit trouver une
page d’accueil comme celle-ci :

Étape 2 : Installation de Cloudera QuickStart

Téléchargez l’image de la machine virtuelle Cloudera QuickStart VM depuis le site de

Cloudera.

Elle se compose de deux édition, l’offre Express et l’offre Entreprise. La première et

très limitée et se trouve dans la page web suivante :

Cloudera QuickStart VM 5.13

Prérequis pour l'installation de Cloudera : 1. Mémoire RAM : Minimum 12 Go (4Go

pour le système d'exploitation + 8 Go pour Cloudera). Il est recommandé d'avoir 16 Go.
Pour installer Cloudera, il faut télécharger les <<QuickStarts>>, et cliquer sur <<Download
Now>> (Télécharger maintenant).

Puis, extrayez le fichier <<[Link]>> télécharger. Le zip

extrait doit avoir le <<[Link]>>.

Étape 3 : Configuration de Cloudera QuickStart sur VirtualBox :

Cette image montre l'interface de création d'une machine virtuelle dans VirtualBox pour
installer Cloudera QuickStart. Voici les étapes expliquées :Étapes de configuration de la
machine virtuelle :

1. Nom et système d'exploitation :

o Le nom de la machine virtuelle est défini comme Cloudera.
o Le dossier où seront stockés les fichiers de la machine virtuelle est indiqué (C:\Users\
Mounia Khaddour\VirtualBox VMs).
o L’image ISO n’est pas encore sélectionnée (elle devra être ajoutée plus tard).

2. Type et version du système d’exploitation :

o Le type est défini sur Linux.
o Le sous-type est Oracle Linux.
o La version choisie est Oracle Linux (64-bit), ce qui correspond bien à Cloudera
QuickStart, qui tourne sous CentOS (une variante de Linux basée sur Red Hat).

3. Boutons de navigation :
o Précédent : Pour revenir à l’étape précédente.
o Finish : Pour finaliser la configuration et créer la machine virtuelle.
o Annuler : Pour annuler la création de la machine.

Prochaine étape :

Après avoir configuré ces paramètres, il faudra :

 Ajouter l’image ISO de Cloudera QuickStart.

 Ajuster la mémoire et les ressources allouées à la machine virtuelle.
 Démarrer la machine et installer Cloudera.

Ensuite, il est recommandé de cliquer sur le bouton < configuration > suivi d'une clique sur
l'onglet "Avancé" dans la catégorie "Général" et choisir l'option ‘’bidirectionnelle ‘’ pour les
éléments : "Presse-papiers partagés"' et "Glisser Déposer" :

Ensuite, appuyez sur le bouton ‘Démarrer’ avec la flèche verte en haut de l’interface graphique de
VirtualBox
Étape 4 : Installation de Microsoft R Client

1. Téléchargez Microsoft R Client depuis le site officiel de Microsoft.

2. Installez Microsoft R Client sur votre machine hôte (Windows/Linux).
3. Configurez Microsoft R Client pour interagir avec Cloudera QuickStart si nécessaire.

Une fois ces étapes terminées, vous devriez être en mesure d’utiliser RevoScaleR dans un
environnement Big Data avec Cloudera et VirtualBox. 🚀

Conclusion

Le package RevoScaleR est un outil puissant pour l'analyse de données volumineuses, mais il
nécessite l'installation de logiciels spécifiques de Microsoft. En suivant les étapes
mentionnées, il est possible de l'installer et de l'utiliser efficacement pour des analyses
avancées.

Si vous avez besoin de modifications ou d'ajouts, dites-moi ! 😊

.Conclusion

L’analyse de Big Data sous R est facilitée par des packages optimisés qui permettent de traiter
efficacement des volumes massifs d’informations. Grâce à [Link], ff, bigmemory et
RevoScaleR, R devient un outil puissant pour l’analyse statistique et la prise de décision
basée sur de grandes bases de données.
L’intégration avec Apache Spark via sparklyr permet également d’exploiter la puissance du
calcul distribué pour traiter des jeux de données dépassant les capacités d’un seul ordinateur.

Vous aimerez peut-être aussi

Introduction au logiciel R 2018-2019
Pas encore d'évaluation
Introduction au logiciel R 2018-2019
36 pages
R Complet
Pas encore d'évaluation
R Complet
415 pages
1 Initiation R PRINT
Pas encore d'évaluation
1 Initiation R PRINT
28 pages
Formation Complète sur le Logiciel R
Pas encore d'évaluation
Formation Complète sur le Logiciel R
6 pages
02 - Introduction Rapide À R
Pas encore d'évaluation
02 - Introduction Rapide À R
105 pages
Chapitre - 1 AS
Pas encore d'évaluation
Chapitre - 1 AS
43 pages
TP - Data-Mining
Pas encore d'évaluation
TP - Data-Mining
5 pages
CR TP Statistiques
Pas encore d'évaluation
CR TP Statistiques
17 pages
Note de Cours Logiciel R
Pas encore d'évaluation
Note de Cours Logiciel R
19 pages
Renommer une colonne avec Pandas
Pas encore d'évaluation
Renommer une colonne avec Pandas
109 pages
Cours Logiciel R - Chapitre 1
Pas encore d'évaluation
Cours Logiciel R - Chapitre 1
36 pages
Statistique Et Data Science Avec R by François Husson
100% (6)
Statistique Et Data Science Avec R by François Husson
429 pages
Atelier1 23-24
Pas encore d'évaluation
Atelier1 23-24
83 pages
Formation R Initiation - Chevalier 2018
Pas encore d'évaluation
Formation R Initiation - Chevalier 2018
170 pages
Presentationcomple Outilset Logicielstatistiques
Pas encore d'évaluation
Presentationcomple Outilset Logicielstatistiques
22 pages
WWW - Cours Gratuit - Com CoursAir Id5364
Pas encore d'évaluation
WWW - Cours Gratuit - Com CoursAir Id5364
124 pages
Analyser Des Données Avec R
Pas encore d'évaluation
Analyser Des Données Avec R
172 pages
Fascicule TP
Pas encore d'évaluation
Fascicule TP
12 pages
Text Mining avec R et RStudio
Pas encore d'évaluation
Text Mining avec R et RStudio
56 pages
Course V1projet Theme187075session01 Module1 Partie2 Use Case Le Logiciel R
Pas encore d'évaluation
Course V1projet Theme187075session01 Module1 Partie2 Use Case Le Logiciel R
7 pages
1-Introduction R
Pas encore d'évaluation
1-Introduction R
76 pages
Cours et TP sur R pour Analyse Statistique
100% (1)
Cours et TP sur R pour Analyse Statistique
38 pages
Cours Analyse Et Exploitation Des Donnã© Es (Licence
Pas encore d'évaluation
Cours Analyse Et Exploitation Des Donnã© Es (Licence
67 pages
Semin R
Pas encore d'évaluation
Semin R
43 pages
Master Data Sciences & Big Data: Faculté Des Sciences Ben M'Sik, Université Hassan II-Casablanca
Pas encore d'évaluation
Master Data Sciences & Big Data: Faculté Des Sciences Ben M'Sik, Université Hassan II-Casablanca
21 pages
Cours R
Pas encore d'évaluation
Cours R
94 pages
Introduction à l'analyse de données
Pas encore d'évaluation
Introduction à l'analyse de données
159 pages
Cours4 RIntro TP
Pas encore d'évaluation
Cours4 RIntro TP
30 pages
Statistiques et R pour étudiants
Pas encore d'évaluation
Statistiques et R pour étudiants
27 pages
Guide D'autoformation - R
Pas encore d'évaluation
Guide D'autoformation - R
20 pages
Logiciel R2223
Pas encore d'évaluation
Logiciel R2223
46 pages
Guide des fonctions essentielles R
Pas encore d'évaluation
Guide des fonctions essentielles R
2 pages
Manuel R pour Étudiants MASTER IMEA
Pas encore d'évaluation
Manuel R pour Étudiants MASTER IMEA
19 pages
Introduction au langage R et ses applications
Pas encore d'évaluation
Introduction au langage R et ses applications
1 page
Introduction Au Tidyverse
Pas encore d'évaluation
Introduction Au Tidyverse
478 pages
Analyse R (Complet)
Pas encore d'évaluation
Analyse R (Complet)
1 397 pages
Projet ADD 2020-TravailAFaire
Pas encore d'évaluation
Projet ADD 2020-TravailAFaire
13 pages
TP RHadoop
Pas encore d'évaluation
TP RHadoop
7 pages
PDF 2
Pas encore d'évaluation
PDF 2
57 pages
RAS Seance 1 Seance Decouverte R 2025 Sujet
Pas encore d'évaluation
RAS Seance 1 Seance Decouverte R 2025 Sujet
9 pages
Syllabus MTH229
Pas encore d'évaluation
Syllabus MTH229
3 pages
Types et structures de données en R
Pas encore d'évaluation
Types et structures de données en R
32 pages
ch1 Introduction
Pas encore d'évaluation
ch1 Introduction
15 pages
Introduction aux statistiques avec R
Pas encore d'évaluation
Introduction aux statistiques avec R
26 pages
Introduction à R pour débutants
Pas encore d'évaluation
Introduction à R pour débutants
19 pages
Introduction au langage de programmation R
Pas encore d'évaluation
Introduction au langage de programmation R
66 pages
Introduction au logiciel R et ses objets
Pas encore d'évaluation
Introduction au logiciel R et ses objets
14 pages
Data Science R : Cours et Pratique
Pas encore d'évaluation
Data Science R : Cours et Pratique
80 pages
Introduction à R pour débutants
100% (1)
Introduction à R pour débutants
18 pages
Pres R1 Fihri
Pas encore d'évaluation
Pres R1 Fihri
22 pages
LBIRA2110
Pas encore d'évaluation
LBIRA2110
74 pages
Guide TP
Pas encore d'évaluation
Guide TP
76 pages
Analyse R
Pas encore d'évaluation
Analyse R
929 pages
Langage R
Pas encore d'évaluation
Langage R
23 pages
Cours Biostat CFC 2023
Pas encore d'évaluation
Cours Biostat CFC 2023
302 pages
Cours2 - ELEMENTS DE STATISTIQUES (2) - Statistique Descriptive Univariée - Tri À Plat
Pas encore d'évaluation
Cours2 - ELEMENTS DE STATISTIQUES (2) - Statistique Descriptive Univariée - Tri À Plat
23 pages
Chapitre 1 - Et - 2
Pas encore d'évaluation
Chapitre 1 - Et - 2
40 pages
Presentstion Word
Pas encore d'évaluation
Presentstion Word
7 pages
Cours Rédaction PFE 2
Pas encore d'évaluation
Cours Rédaction PFE 2
75 pages
Cour SQL
Pas encore d'évaluation
Cour SQL
26 pages
API Travaux Pratiques TP1
Pas encore d'évaluation
API Travaux Pratiques TP1
21 pages
Chapitre 1 - Part 1
Pas encore d'évaluation
Chapitre 1 - Part 1
29 pages
XXXX
Pas encore d'évaluation
XXXX
4 pages
Conception Et Réalisation D'un Système de Messagerie Interne CasIFRI
Pas encore d'évaluation
Conception Et Réalisation D'un Système de Messagerie Interne CasIFRI
65 pages
Cours Test Logiciel ISTQB
Pas encore d'évaluation
Cours Test Logiciel ISTQB
135 pages
Module5-Les Structures Répétitives
100% (2)
Module5-Les Structures Répétitives
4 pages
Smart Contrat
Pas encore d'évaluation
Smart Contrat
23 pages
Plan de Cours Programmation Web
Pas encore d'évaluation
Plan de Cours Programmation Web
3 pages
Introduction à l'Architecture SOA
100% (1)
Introduction à l'Architecture SOA
83 pages
Pointeurs et Références en C++
Pas encore d'évaluation
Pointeurs et Références en C++
28 pages
Questionnaireautocad
Pas encore d'évaluation
Questionnaireautocad
3 pages
Gestion des listes déroulantes en JS
Pas encore d'évaluation
Gestion des listes déroulantes en JS
4 pages
Développement D'une Application Web de La Gestion Des Inventaires Informatiques - Mikou Oumaima
Pas encore d'évaluation
Développement D'une Application Web de La Gestion Des Inventaires Informatiques - Mikou Oumaima
38 pages
Virtualisationet Cloud Computing
Pas encore d'évaluation
Virtualisationet Cloud Computing
72 pages
Projet Flask gr2
Pas encore d'évaluation
Projet Flask gr2
2 pages
Chapitre 2 - HDFS
Pas encore d'évaluation
Chapitre 2 - HDFS
23 pages
TP2 Correction
Pas encore d'évaluation
TP2 Correction
3 pages
Grille de mots et base de données
Pas encore d'évaluation
Grille de mots et base de données
6 pages
Algo 1 Bac 1 Informatique 2022-2023-1
Pas encore d'évaluation
Algo 1 Bac 1 Informatique 2022-2023-1
63 pages
Cours Python Master 26-10-2024
Pas encore d'évaluation
Cours Python Master 26-10-2024
29 pages
LDP Deltac4 05
Pas encore d'évaluation
LDP Deltac4 05
90 pages
Cours Python Partie2
Pas encore d'évaluation
Cours Python Partie2
48 pages
La Boucle For
Pas encore d'évaluation
La Boucle For
10 pages
Correction de Tp3
Pas encore d'évaluation
Correction de Tp3
2 pages
Tutoriel Cobian Backup - Sauvegarde de Données
Pas encore d'évaluation
Tutoriel Cobian Backup - Sauvegarde de Données
8 pages
Introduction à la POO pour débutants
Pas encore d'évaluation
Introduction à la POO pour débutants
11 pages
Cours 3eme 2021 - 2022 - Élève - Partie3 - Structures de Controle
Pas encore d'évaluation
Cours 3eme 2021 - 2022 - Élève - Partie3 - Structures de Controle
7 pages
TP Programmation Orientée Objet Java
100% (2)
TP Programmation Orientée Objet Java
21 pages
Presenation Projet Developpement Informatique
Pas encore d'évaluation
Presenation Projet Developpement Informatique
18 pages
Python 1
0% (1)
Python 1
233 pages
Premier Pas Avec Python
Pas encore d'évaluation
Premier Pas Avec Python
14 pages

Projet Math

Transféré par

Projet Math

Transféré par

1.

Ce projet de fin de module s'inscrit dans cette dynamique en explorant l’utilisation du

Le projet se divise en plusieurs parties :

 La première partie est consacrée à l’introduction du logiciel R, en explorant ses

R est un langage de programmation et un environnement logiciel dédié à l’analyse

 Langage orienté statistique : R est spécialement conçu pour l’analyse de données et

Pour utiliser R, il est nécessaire de télécharger et d’installer :

1. R : Disponible sur le site officiel de CRAN ([Link]

 Console : Permet d’exécuter directement des commandes R.

Premier contact avec R : Commandes de base

Voici quelques commandes de base à exécuter dans la console R :

L’environnement R est un outil puissant pour l’analyse de données et la modélisation

2.2. Application des techniques de reshaping (melt, dcast, etc.)

Introduction au reshaping des données :

 melt() : Convertit un jeu de données du format large vers le format long.

2.3. Étude de cas : manipulation du dataset "iris"

Chargement des données et préparation :

Charger les bibliothèques nécessaires :

Utilisation de melt() : transformation en format long :

 [Link] = "Species" : La colonne "Species" est conservée comme variable d’identification.

Avant melt() (format large) :

Species [Link] [Link] [Link] [Link]

Setosa 5.1 3.5 1.4 0.2

Setosa 4.9 3.0 1.4 0.2

Après melt() (format long) :

Species variable value

Setosa [Link] 5.1

Setosa [Link] 3.5

Setosa [Link] 1.4

Setosa [Link] 0.2

Utilisation de dcast() : transformation en format large :

Avant dcast() (format long) :

Species variable value

Setosa [Link] 5.1

Setosa [Link] 3.5

Setosa [Link] 1.4

Setosa [Link] 0.2

Après dcast() (format large) :

Species [Link] [Link] [Link] [Link]

Setosa 5.006 3.428 1.462 0.246

Versicolor 5.936 2.770 4.260 1.326

Virginica 6.588 2.974 5.552 2.026

Les caractéristiques du Big Data sont souvent résumées en 5V :

 Volume : Quantité massive de données générées chaque seconde.

2. Outils R pour le Big Data :

 [Link] : Manipulation rapide et efficace de grandes bases de données.

[Link] des bibliothèques pour l’analyse de Big Data sous R :

 [Link] : Manipulation efficace des grandes bases de données

 Chargement rapide des fichiers volumineux avec fread()

Charger les bibliothèques nécessaires

Filtrer les données :

Agréger les données par le poids:

 head(...)Affiche les 6 premières lignes du résultat pour voir un aperçu.

Le package RevoScaleR et son installation :

Le package RevoScaleR est un package essentiel pour le traitement des données

Fonctionnalités essentielles de RevoScaleR :

Le package RevoScaleR offre plusieurs fonctions importantes, notamment :

 rxImport() : Importation efficace de gros volumes de données.

Étapes pour installer le package RevoScaleR

Étape 1 : Installation et lancement de VirtualBox

Téléchargez Oracle VM VirtualBox depuis le site officiel :

Puis choisir la version convenable avec notre système d’exploitation (Windows , OS ,

Étape 2 : Installation de Cloudera QuickStart

Téléchargez l’image de la machine virtuelle Cloudera QuickStart VM depuis le site de

Elle se compose de deux édition, l’offre Express et l’offre Entreprise. La première et

Cloudera QuickStart VM 5.13

Prérequis pour l'installation de Cloudera : 1. **Mémoire RAM** : Minimum 12 Go (4Go

Puis, extrayez le fichier <<[Link]>> télécharger. Le zip

Étape 3 : Configuration de Cloudera QuickStart sur VirtualBox :

1. Nom et système d'exploitation :

2. Type et version du système d’exploitation :

Après avoir configuré ces paramètres, il faudra :

 Ajouter l’image ISO de Cloudera QuickStart.

1. Téléchargez Microsoft R Client depuis le site officiel de Microsoft.

Si vous avez besoin de modifications ou d'ajouts, dites-moi ! 😊

Vous aimerez peut-être aussi

Prérequis pour l'installation de Cloudera : 1. Mémoire RAM : Minimum 12 Go (4Go