0% ont trouvé ce document utile (0 vote)
17 vues23 pages

Analyse des Données et Décision R

Le document présente une analyse des données et des méthodes d'aide à la décision, en se concentrant sur la description monodimensionnelle et bidimensionnelle des données. Il aborde des concepts tels que les valeurs représentatives, les diagrammes en boîte, la variance, l'écart-type, ainsi que des exercices pratiques utilisant le langage R pour manipuler et visualiser des jeux de données. Les méthodes exploratoires élémentaires sont détaillées pour aider à la prise de décision basée sur les données.

Transféré par

Mohamed El Más Fuerte
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
17 vues23 pages

Analyse des Données et Décision R

Le document présente une analyse des données et des méthodes d'aide à la décision, en se concentrant sur la description monodimensionnelle et bidimensionnelle des données. Il aborde des concepts tels que les valeurs représentatives, les diagrammes en boîte, la variance, l'écart-type, ainsi que des exercices pratiques utilisant le langage R pour manipuler et visualiser des jeux de données. Les méthodes exploratoires élémentaires sont détaillées pour aider à la prise de décision basée sur les données.

Transféré par

Mohamed El Más Fuerte
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ANALYSE DES DONNÉES & AIDE À LA

DÉCISION
Méthodes exploratoires élémentaires

Mme DIAKITE Rokiatou DIARRA


TechnoLAB-ISTA
Année universitaire 2022-2023
Les données Description monodimensionnelle Description bidimensionnelle

• Plan

 Les Données

 Description monodimensionnelle

 Description bidimensionnelle

2/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Les données Description monodimensionnelle Description bidimensionnelle
• Définition/Représentation

Une donnée est un échantillon de m individus sur lesquels on observe n variables.


Elle se représente sous la forme d’un tableau de m lignes et n colonnes.)..

On appelle alors :
i ème observation : le vecteur ( xi1 , xi 2 ,..., xin )formé des valeurs X j des sur I i .
j ème réalisation : le vecteur( x1 j , x2 j ,..., xmj )T formé des valeurs de X sur les I .
j i

information xij : la valeur de la variable X j par rapport à l’individu I i .


3/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Les données Description monodimensionnelle Description bidimensionnelle

• Définition/Représentation

Remarque : une donnée, est donc un ensemble de vecteurs  X 1 , X 2 ,..., X n  noté encore X j  
1 j  n

où chaque vecteur (ou colonne) X j peut-être :

 numérique : xij sera dans un ensemble E inclus dans R, ou N, ou Z, ...

 catégorielle :xij sera dans un ensemble E = {cat1, cat2, ...}

 alphanumérique : xij sera dans un ensemble E quelconque.

Si tous les vecteurs X j sont de même type, alors la donnée est une matrice X  xij 1i  m
1 j  n

4/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Les données Description monodimensionnelle Description bidimensionnelle

• Définition/Représentation

Exercice : on considère le jeu de donnée du fichier "prestation.csv".


1. Sous R, quelle fonction faut-il utiliser pour charger ce fichier ?
2. Ouvrir le fichier dans un éditeur de texte pour prendre note du contenu.
3. Charger le jeu de donnée à travers une variable mydata. Pour rappel

mydata <- read.table("prestation.csv", sep=",", header=TRUE)

4. Quel est le type de la variable mydata ?


5. Quelle est sa dimension ? Combien de variables et d’observations a-t-on donc ?
6. Visualiser le et déterminer le type de chacun des variables.
7. Peut-on considérer ce jeu de données comme une matrice ? Pourquoi ?
8. Que représente la troisième réalisation ? Capturer la à travers un vecteur entrees.
5/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Valeurs représentatives
Diagramme en boite
Les données Description monodimensionnelle Valeurs de dispersion Description bidimensionnelle
• Plan

 Les données

 Description monodimensionnelle

• Valeurs représentatives
• Diagramme en boite
• Valeurs de dispersion

 Description bidimensionnelle

6/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Valeurs représentatives
Les données Description monodimensionnelle Diagramme en boite Description bidimensionnelle
Valeurs de dispersion
• Le minimum, maximum et la moyenne
Soit X j une variable dont on observe sur m individus (de type numérique).

Le minimum X j noté m j est tel que m j  xij i  1,..., m


La fonction min(vecteur) sous R donne le minimum de vecteur fourni.

Le maximum de X j noté M est


j tel que M j  xij i  1,..., m

La fonction max(vecteur) sous R donne le maximum de vecteur fourni.


1 m
 j   xij
La moyenne de X j notée  j est donnée par m i 1

La fonction mean(vecteur) sous R donne la moyenne de vecteur fourni.

Exercice : sous R, créer un objet dataframe nommé valRep comportant m, u et M respectivement


le minimum, la moyenne et le maximum du vecteur entrees.
7/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Valeurs représentatives
Les données Description monodimensionnelle Diagramme en boite Description bidimensionnelle
Valeurs de dispersion
• La médiane et les quartiles
Soit X j une variable dont on observe sur m individus (de type numérique).

La médiane de Xj noté Q2 est une valeur partageant les valeurs ordonnées des xij , i  1,..., m
en deux intervalles [m,Q2] et [Q2,M] contenant chacun 50% des valeurs.

La fonction median(vecteur) sous R donne la médiane de vecteur fourni.

Remarque : la médiane et la moyenne sont utilisées pour déterminer la proportion


des faibles/fortes valeurs d’un vecteur par rapport à la moyenne de ce vecteur :

si Q2 < μ alors les valeurs les plus élevés sont dans l’intervalle [μ,M] ;
si Q2 > μ alors les valeurs les plus faibles sont dans l’intervalle [m, μ].
si Q2 = μ alors les faibles et fortes valeurs sont équi-réparties dans [m, μ] et [μ,M].
8/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Valeurs représentatives
Les données Description monodimensionnelle Diagramme en boite Description bidimensionnelle
Valeurs de dispersion
• La médiane et les quartiles
Soit Xj une variable dont on observe sur m individus (de type numérique).

Les quartiles notés Q1, Q2 et Q3 sont des valeurs partageant les valeurs ordonnées des xij , i  1,..., m

en trois intervalles [m,Q1], [m,Q2] et [m,Q3] contenant respectivement 25%, 50% et 100% des valeurs (Q2 est
la médiane).
La fonction quantile(vecteur) sous R donne les quartiles inclus dans les quantiles (m, Q1, Q2, Q3, M) de vecteur
fourni.

L’étendu inter-quartile de Xj donné par Q3 − Q1 est un étendu d’intervalle contenant 50% des valeurs
ordonnées des xij , i  1,..., m autour de μ.

9/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Valeurs représentatives
Les données Description monodimensionnelle Diagramme en boite Description bidimensionnelle
Valeurs de dispersion
• La médiane et les quartiles

Exercice : capturer les quantiles de entrees à travers une variable nommée valRep2.
Quel est le type de cette nouvelle variable ?
Comment sont les fortes/faibles valeurs de entrees par rapport à la moyenne ?
Donner deux intervalles dans lesquels on a 50% des valeurs de entrees.

> valRep2 <- quantile(entrees)


> mode(valRep2)

μ = 108.95 et Q2 = 108 donc les valeurs élevées sont dans l’intervalle [108.95; 118].
Les intervalles [102; 108], [104; 113.5] et [108; 118] ont chacun 50% des valeurs.
Remarque : pour des variables autres que vecteur, la fonction summary(var) retourne les
statistiques des quantiles.
Elle marche pour les vecteurs aussi. 10/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Valeurs représentatives
Les données Description monodimensionnelle Diagramme en boite Description bidimensionnelle
Valeurs de dispersion
• Diagramme en boite (boite à moustaches)

Le diagramme en boite ou boite à moustache d’un vecteur Xj est une représentation graphique des quantiles (min,
max et quartiles) de ce vecteur.
Il est constitué :
• d’un rectangle délimité par les quartiles Q1 et Q3 et partagé en deux par la médiane Q2 ;
• de deux outliers représentant le minimum m = Q0 et le maximum M = Q4.

La fonction boxplot(vecteur) sous R dessine le diagramme en boite de vecteur fourni.


Elle prend de nombreux paramètres comme horizontal, un booléen pour indiquer si le plot est
horizontal avec True et vertical avec False (valeur par défaut).
axis(side=1, at=seq(min(vecteur), max(vecteur), by=val)) permet de graduer l’axe par pas de val.
11/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Valeurs représentatives
Les données Description monodimensionnelle Diagramme en boite Description bidimensionnelle
Valeurs de dispersion
• Diagramme en boite (boite à moustaches)

Exercice : Dessiner à la main la boite à moustache pour le vecteur entrees. Puis effectuer cela sous R à l’horizontal.

boxplot(entrees, horizontal = T)
axis(side = 1, at = seq(min(entrees), max(entrees), by=1))

12/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Valeurs représentatives
Les données Description monodimensionnelle Diagramme en boite Description bidimensionnelle
Valeurs de dispersion
• La variance, l’écart-type et le coefficient de variation

Soit Xj une variable dont on observe sur m individus (de type numérique).
2
La variance de Xj noté varj est donnée par var j  1  xij2   1  xij 
m m

m i 1  m i 1 

Elle permet de mesurer la dispersion des valeurs de Xj par rapport à la moyenne via l’écart-type de Xj noté  j  var j
L’intervalle    ,     contient 68.2% des valeurs de Xj .
j j j j

L’intervalle  j  1.96 j ,  j  1.96 j  contient 95% des valeurs de Xj .

La fonction var(vecteur) sous R donne la variance de vecteur fourni.


j
Le coefficient de variation de Xj noté Cj est donné par C j .
j
Il permet de mesurer en pourcentage la manière dont les valeurs de Xj sont séparées l’une de l’autre par rapport à la
moyenne.
Par exemple μ = 10,   1 présentent des valeurs plus dispersées que μ = 1000,   10
13/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Valeurs représentatives
Les données Description monodimensionnelle Diagramme en boite Description bidimensionnelle
Valeurs de dispersion
• La variance, l’écart-type et le coefficient de variation

Exercice : calculer la variance v et l’écart-type s de la variable entrees puis déterminer un intervalle de confiance ic
des valeurs à 68.2% et le coefficient de variation cv des valeurs autour de la moyenne.

> v <- var(entrees)


> s <- sqrt(v)
> ic <- c(u-s, u+s)
> cv <- (s / u) * 100

L’intervalle de confiance à 68.2% est donc [103.8152; 114.0848] et les valeurs varient de 4.712954% autour de
la moyenne (c-à-d très serrées l’une de l’autre).

14/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Diagramme en battons
Les données Description monodimensionnelle Description bidimensionnelle Diagramme en camembert
Histogrammes
• Plan

 Les données

 Description monodimensionnelle
 Description bidimensionnelle

• Diagramme en battons
• Diagramme en camembert
• Histogrammes

15/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Diagramme en battons
Les données Description monodimensionnelle Description bidimensionnelle Diagramme en camembert
Histogrammes
• Diagramme en battons
Soit Xj une variable dont on observe sur m individus (de type numérique).
Le diagramme en battons permet de représenter graphiquement toutes les m valeurs prises par Xj sous forme de
barres verticales (au lieu d’une vue tabulaire).

La fonction barplot(vecteur) permet de produire le diagramme en battons de vecteur fourni.


Elle prend plusieurs paramètres comme par exemple :
 col="couleur" permettant de spécifier la couleur des barres ;
 xlim=c(val1,val2) permettant de spécifier la limite des abscisses ;
 ylim=c(val1,val2) permettant de spécifier la limite des ordonnées ;
 names.arg=vec permettant de spécifier le nom des entrées des abscisses ;
 las=val permettant d’orienter les nom des entrées des abscisses et ordonnées.
16/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Diagramme en battons
Les données Description monodimensionnelle Description bidimensionnelle Diagramme en camembert
Histogrammes
• Diagramme en battons
Exercice : Tracez via R le diagramme en battons du vecteur entrees avec la couleur bleue.
La limite des ordonnées doit être entre 0 et 120.
Le nom des entrées des abscisses doit être avec les valeurs de la première colonne de data orienté de
façon perpendiculaire à l’axe des abscisses.

barplot(entrees, col="blue", ylim=c(0,120), names.arg=mydata[,1], las=2)

17/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Diagramme en battons
Les données Description monodimensionnelle Description bidimensionnelle Diagramme en camembert
Histogrammes
• Diagramme en camembert

Soit Xj une variable dont on observe sur m individus (de type numérique positif).
Le diagramme en camembert permet de représenter graphiquement toutes les m valeurs prises par Xj sous forme de
cercle avec tranches (au lieu d’une vue tabulaire).

La fonction pie(vecteur) permet de produire le diagramme en camembert de vecteur fourni.


Elle prend plusieurs paramètres comme par exemple :
col=vec permettant de spécifier les couleurs des barres ;
labels=vec permettant de spécifier le nom des tranches.
18/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Diagramme en battons
Les données Description monodimensionnelle Description bidimensionnelle Diagramme en camembert
Histogrammes
• Diagramme en camembert

Exercice : Tracez via R le diagramme en camembert du vecteur entrees avec des couleurs par défaut.
Le nom des tranches doit être avec les valeurs de la première colonne de data.

pie(entrees, labels = mydata[,1])

19/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Diagramme en battons
Les données Description monodimensionnelle Description bidimensionnelle Diagramme en camembert
Histogrammes
• Histogrammes
Soit Xj une variable dont on observe sur m individus (de type numérique ).
L’histogramme permet de représenter graphiquement la répartition des valeurs prises par Xj par fréquence ou
densité sous forme de barres verticales.

La fonction hist(vecteur) permet de produire l’histogramme de vecteur fourni.


Elle prend plusieurs paramètres comme par exemple :
• freq=val permettant de spécifier si c’est fréquence (par défaut) ou densité ;
• col="couleur" permettant de spécifier la couleur des barres ;
• breaks=val permettant de spécifier la répartition des tranches ;
• labels=val permettant d’ajouter des labels au dessus de chaque tranche ; 20/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Les données Diagramme en battons
Description monodimensionnelle Diagramme en camembert
Description bidimensionnelle Histogrammes
• Histogrammes

Exercice : Tracez via R l’histogramme (des fréquences) du vecteur entrees avec la couleur indigo.
Le nombre de tranches doit être 5 avec un label au dessus pour chaque tranche.

hist(entrees, col="purple", breaks = 5, labels = T) # ou bien


hist(entrees, col="purple", breaks = c(100,105,110,115,120), labels = T)

21/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Diagramme en battons
Les données Description monodimensionnelle Description bidimensionnelle Diagramme en camembert
Histogrammes
• Histogrammes

Exercice 2 : Tracez le résultat en pourcentage de l’histogramme (des fréquences) du vecteur entrees avec un
diagramme en camembert.
Les couleurs sont bleue, vert, rouge et indigo et le nom des tranches doit être la valeur du pourcentage
correspondant.
res <- hist(entrees, breaks = 5, plot=F)
pie(res$counts, col=c("blue", "green", "red", "purple"),
labels = res$counts/20*100)

22/23
Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
Méthodes élémentaires

Mme DIAKITE Rokiatou DIARRA/ Analyse des Données & Aide à la Décision
23/23

Vous aimerez peut-être aussi