0% ont trouvé ce document utile (0 vote)

35 vues13 pages

Projet Stat Logiciel R

Ce rapport présente l'utilisation du logiciel R pour quatre méthodes statistiques clés : la régression linéaire simple et multiple, l'analyse des composantes principales (ACP) et l'analyse discriminante. Chaque méthode est expliquée avec des théories, des exemples de code R et des interprétations des résultats. Les perspectives d'évolution incluent l'application à des données massives et l'intégration avec le Machine Learning.

Transféré par

am.masfene

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

35 vues13 pages

Projet Stat Logiciel R

Transféré par

am.masfene

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Ministère de l'Enseignement Supérieure et de la Recherche Scient

Ecole Nationale Supérieure des Technologies Avancées

Département Génie Industriel et Maintenance

STATISTIQUe

RAPPORT SUR Le
LOGICIeL R

NOm :mAhIeddINe

PReNOm :mARwA

L’eNSeIGNANT ReSPONSAbLe de LA mATIèRe: [Link]

Sommaire

-Introduction

-Régression linéaire simple

-Régression linéaire multiple

-Analyse des composantes principales (ACP)

-Analyse discriminante

-Conclusion
1. Introduction

Le logiciel R s'est imposé comme une référence incontournable en analyse statistique grâce à
sa flexibilité et sa richesse fonctionnelle. Ce rapport détaille les travaux pratiques réalisés
pour maîtriser quatre méthodes fondamentales :

La régression linéaire (simple et multiple) pour l'étude des relations entre variables.

L'ACP pour la réduction de dimensionnalité.

L'analyse discriminante pour la classification supervisée.

Chaque section combine explications théoriques, exemples concrets avec codes R commentés,
et interprétations détaillées des résultats.
2. Régression linéaire simple

La régression linéaire simple permet d'étudier la relation entre une variable indépendante X
et une variable dépendante de Y .
Étapes clés :
Collecte des données : Préparer un jeu de données avec Y = β0 + β1X + ε

β0 : Ordonnée à l'origine.

β1: Pente de la droite.

ϵ : Terme d'erreur (bruit).

Méthode des moindres carrés : Minimise la somme des carrés des résidus pour estimer β0 et
β1.
x <- c(1, 2, 3, 4, 5) # Variable indépendante
y <- c(2.1, 3.9, 6.2, 8.1, 9.8) # Variable dépendante

# Ajustement du modèle
modele <- lm(y ~ x)

# Affichage des résultats

summary(modele)

Sortie typique :

Coefficients estimés (β0,β1 ).

R^2 : Qualité de l'ajustement (ex: 0.98 = 98% de variance expliquée).
Tests de significativité (p-value < 0.05 pour β1 ).

2.3 Visualisation

plot(x, y, pch = 19, col = "blue", main = "Régression Linéaire Simple")

abline(modele, col = "red", lwd = 2)
legend("topleft", legend = paste("R² =", round(summary(modele)$[Link], 3)))

3. Régression Linéaire Multiple

3.1 Fondements Mathématiques

Modèle :

Y=β0+β1X1+β2X2+…+βpXp+ϵ

Hypothèses :

Linéarité, indépendance des résidus, homoscédasticité.

3.2 Application Pratique

# Données avec 3 variables explicatives
data <- [Link](
Y = c(10, 15, 20, 25, 30),
X1 = c(1, 2, 3, 4, 5),
X2 = c(2, 3, 4, 5, 6),
X3 = c(0.5, 1, 1.5, 2, 2.5))

# Modèle
modele_multiple <- lm(Y ~ X1 + X2 + X3, data = data)
summary(modele_multiple)

Interprétation :

Adjusted R² : Pénalise l'ajout de variables non informatives.

Test F global : Vérifie si au moins un coefficient est non nul.
3.3 Diagnostic du Modèle :

# Analyse des résidus

par(mfrow = c(2, 2))
plot(modele_multiple)

4. Analyse des Composantes Principales (ACP)

Q-Q Plot : Normalité des résidus.

Residuals vs Fitted : Détection d'hétéroscédasticité.
Analyse des Composantes Principales (ACP)

4.1 Concepts Clés

Objectif : Réduire le nombre de variables en conservant l'information maximale.

Étapes :
Standardisation des données.
Calcul de la matrice de corrélation.
Extraction des valeurs/vecteurs propres.

4.2 Mise en Œuvre

library(FactoMineR)
data(iris)
acp <- PCA(iris[, 1:4], [Link] = TRUE, graph = FALSE)
# Variance expliquée
acp$eig

Résultats :

CP1 : 72.96% de variance.

CP2 : 22.85% de variance.

4.3 Visualisation

plot(acp, choix = "var", axes = c(1, 2))

fviz_pca_biplot(acp, label = "var", [Link] = "red")

5. Analyse Discriminante

L'analyse discriminante est une méthode statistique supervisée utilisée pour classer des
observations dans des groupes prédéfinis et comprendre les variables qui séparent ces
groupes. Elle est particulièrement utile en reconnaissance de formes, en biologie
(classification d'espèces), en marketing (segmentation de clients), etc.

Objectif :
Classer des observations dans des groupes prédéfinis.

5.1 Principes Mathématiques

L'analyse discriminante repose sur deux approches principales :

Analyse Discriminante Linéaire (LDA) :
Suppose que les classes ont la même matrice de covariance.
Maximise le rapport entre la variance inter-classe et intra-classe.

Fonction de décision linéaire :

δk(x)=x T Σ^ −1 μ k − 1/2 μ kT Σ ^−1μ k +log(π k )

où :

Σ = matrice de covariance (commune à toutes les classes),

μ k= moyenne de la classe
π k= probabilité a priori de la classe k.

Analyse Discriminante Quadratique (QDA) :

Relaxe l'hypothèse de covariance commune (chaque classe a sa propre matrice Σk).

fonction de décision quadratique :

δk(x)=− 1/2log∣Σ k ∣− 1/2(x−μ k) TΣ k−1(x−μ k)+log(π k )

5.2 Implémentation dans R

library(MASS)
modele_lda <- lda(Species ~ ., data = iris)
predictions <- predict(modele_lda)

# Matrice de confusion
table(iris$Species, predictions$class)

5.3 Validation

# Validation croisée
modele_lda_cv <- lda(Species ~ ., data = iris, CV = TRUE)
mean(modele_lda_cv$class == iris$Species) # Taux de succès

Sortie interprétée :

Coefficients discriminants : Pondérations des variables pour chaque fonction discriminante

(LD1, LD2).
Proportion de variance : Contribution de chaque fonction à la séparation des classes.

Exemple :

# 1. Création des données simulées

[Link](123)
fraude_data <- [Link](
montant = c(rnorm(900, 50, 10), rnorm(100, 150, 30)),
heure = c(rnorm(900, 15, 3), rnorm(100, 3, 2)),
fraude = factor(c(rep("Non",900), rep("Oui",100)))
# 2. Analyse Discriminante Linéaire
library(MASS)
model <- lda(fraude ~ montant + heure, data = fraude_data)

# 3. Prédiction et évaluation

pred <- predict(model, fraude_data)

conf_matrix <- table(Prédit = pred$class, Réel = fraude_data$fraude)
accuracy <- mean(pred$class == fraude_data$fraude)

# 4. Visualisation

plot(model, col = c("green","red") # Points verts (Non) vs rouges (Oui)

title("Séparation des transactions normales et frauduleuses")

# 5. Interprétation

cat("Matrice de confusion :\n")

print(conf_matrix)
cat("\nPrécision globale :", round(accuracy*100, 1), "%\n")
cat("\nCoefficients discriminants :\n")
print(model$scaling)
# 6. Export des résultats
[Link](conf_matrix, "matrice_confusion.csv")

6. Conclusion et Perspectives

Ce rapport a démontré l'application pratique de quatre méthodes statistiques essentielles dans

-Régression linéaire (simple et multiple)

-Analyse en Composantes Principales (ACP)
-Analyse discriminante

-Principales réalisations :

Implémentation complète des méthodes avec codes R

Interprétation détaillée des résultats
Visualisations claires des analyses
Perspectives d'évolution :
Application à des données massives (Big Data)
Intégration avec le Machine Learning
Automatisation des analyses via RMarkdown

Annexes fournies :

Scripts R complets
Jeux de données utilisés
Références bibliographiques

Ces compétences ouvrent de nombreuses possibilités pour l'analyse de données dans divers
domaines professionnels et de recherche. Le rapport sert de base solide pour des applications
plus avancées en science des données.

Vous aimerez peut-être aussi

Modele Lineaire
Pas encore d'évaluation
Modele Lineaire
57 pages
MP1 S2 Analyse Statistique Des Données
Pas encore d'évaluation
MP1 S2 Analyse Statistique Des Données
12 pages
Analyse Multivariée en Mathématiques
Pas encore d'évaluation
Analyse Multivariée en Mathématiques
64 pages
Analyse de données avec R
Pas encore d'évaluation
Analyse de données avec R
88 pages
Cours ANAD 2022-2023
Pas encore d'évaluation
Cours ANAD 2022-2023
21 pages
Analyse Canonique et Discriminante en Data Science
Pas encore d'évaluation
Analyse Canonique et Discriminante en Data Science
21 pages
Analyse Des Données Statistiques Pour L'ingénieur
Pas encore d'évaluation
Analyse Des Données Statistiques Pour L'ingénieur
49 pages
Analyse de Fonnées
100% (1)
Analyse de Fonnées
45 pages
Statistiques Multivariées pour Biologistes
Pas encore d'évaluation
Statistiques Multivariées pour Biologistes
76 pages
Vijaya Liinéaire
Pas encore d'évaluation
Vijaya Liinéaire
16 pages
Raport TD Acp
Pas encore d'évaluation
Raport TD Acp
14 pages
Analyse Des Données
Pas encore d'évaluation
Analyse Des Données
99 pages
Pour Réaliser Des Modèles de Régression Multiple Dans MATLAB Et Les Visualiser
Pas encore d'évaluation
Pour Réaliser Des Modèles de Régression Multiple Dans MATLAB Et Les Visualiser
20 pages
119 Biostatistique Et Analyse Informatique Des Donnees de R TDM
100% (1)
119 Biostatistique Et Analyse Informatique Des Donnees de R TDM
4 pages
Chapitre III
Pas encore d'évaluation
Chapitre III
37 pages
Guide pratique sur R Commander
Pas encore d'évaluation
Guide pratique sur R Commander
175 pages
Cours de Statistique Et Econometrie
Pas encore d'évaluation
Cours de Statistique Et Econometrie
118 pages
Cours de Statistique Et Econometrie
Pas encore d'évaluation
Cours de Statistique Et Econometrie
118 pages
Rapport Analyse de Données
Pas encore d'évaluation
Rapport Analyse de Données
53 pages
ACP Et Calcul Matriciel
Pas encore d'évaluation
ACP Et Calcul Matriciel
8 pages
Formulaire AD
Pas encore d'évaluation
Formulaire AD
3 pages
ADD Section 3 Analyse en Composantes Principales
Pas encore d'évaluation
ADD Section 3 Analyse en Composantes Principales
4 pages
Analyse Des Données Chapitres 1 Et 2
Pas encore d'évaluation
Analyse Des Données Chapitres 1 Et 2
37 pages
Analyse Des Données - Support de Cour
Pas encore d'évaluation
Analyse Des Données - Support de Cour
33 pages
ExemplesModeleLineaire AgroParisTech
Pas encore d'évaluation
ExemplesModeleLineaire AgroParisTech
124 pages
Maitrisez L'econometrie Moderne
50% (2)
Maitrisez L'econometrie Moderne
234 pages
Laffly Regression Multiple
Pas encore d'évaluation
Laffly Regression Multiple
33 pages
Notes Analyses Statistiques Multivariees
Pas encore d'évaluation
Notes Analyses Statistiques Multivariees
86 pages
Analyse Des Donnees
Pas encore d'évaluation
Analyse Des Donnees
104 pages
Analyse Et Sécurité de Données Multimédia
Pas encore d'évaluation
Analyse Et Sécurité de Données Multimédia
35 pages
Data Mining Prediction
Pas encore d'évaluation
Data Mining Prediction
151 pages
Pratique de L'analyse Discriminante Linéaire
Pas encore d'évaluation
Pratique de L'analyse Discriminante Linéaire
281 pages
Econométrie Du Modèle Linéaire-1
Pas encore d'évaluation
Econométrie Du Modèle Linéaire-1
6 pages
Cours Danalyse Des Donnees Complet
Pas encore d'évaluation
Cours Danalyse Des Donnees Complet
77 pages
Analyse de données démographiques IPSA
Pas encore d'évaluation
Analyse de données démographiques IPSA
29 pages
Modélisation et Régression Avancées
Pas encore d'évaluation
Modélisation et Régression Avancées
43 pages
Analyse Des Données
Pas encore d'évaluation
Analyse Des Données
24 pages
Feuilletage 679
Pas encore d'évaluation
Feuilletage 679
25 pages
Analyser Des Données Avec R
Pas encore d'évaluation
Analyser Des Données Avec R
146 pages
Mémoire Régression Simple Et Multiple
100% (1)
Mémoire Régression Simple Et Multiple
66 pages
Cours Logiciel R
Pas encore d'évaluation
Cours Logiciel R
42 pages
13-Analyses Multivariees Partie1
Pas encore d'évaluation
13-Analyses Multivariees Partie1
18 pages
Cours Reg
Pas encore d'évaluation
Cours Reg
34 pages
Chapitre 1 Analyse en Composantes Principales 2024-2025
Pas encore d'évaluation
Chapitre 1 Analyse en Composantes Principales 2024-2025
7 pages
Série 2 ACP
Pas encore d'évaluation
Série 2 ACP
10 pages
Mini Projet ADD R
Pas encore d'évaluation
Mini Projet ADD R
3 pages
DataMining Et Analyse de Données - Partie 2
Pas encore d'évaluation
DataMining Et Analyse de Données - Partie 2
108 pages
REGRESSION
Pas encore d'évaluation
REGRESSION
16 pages
Mémento R : Statistiques et MSP
Pas encore d'évaluation
Mémento R : Statistiques et MSP
9 pages
Régression Linéaire Multiple sous Excel
Pas encore d'évaluation
Régression Linéaire Multiple sous Excel
27 pages
TD Analyse Descriptive
Pas encore d'évaluation
TD Analyse Descriptive
11 pages
Big Data Et Analyse Prédictive
Pas encore d'évaluation
Big Data Et Analyse Prédictive
44 pages
Chapitre Prévision de La Demande
Pas encore d'évaluation
Chapitre Prévision de La Demande
102 pages
Reponses Detaillees Analyse Donnees
Pas encore d'évaluation
Reponses Detaillees Analyse Donnees
4 pages
Rapport: Office National Des Aéroports
Pas encore d'évaluation
Rapport: Office National Des Aéroports
40 pages
DM - Chapitre 3
Pas encore d'évaluation
DM - Chapitre 3
13 pages
ADD Cours
Pas encore d'évaluation
ADD Cours
15 pages
Analyse des Déterminants du Diabète
Pas encore d'évaluation
Analyse des Déterminants du Diabète
24 pages
Tests Statistiques et Analyse de Variance
Pas encore d'évaluation
Tests Statistiques et Analyse de Variance
4 pages
QM - Leçon 4
Pas encore d'évaluation
QM - Leçon 4
17 pages
Ectx II L3 ch8 2014-15
Pas encore d'évaluation
Ectx II L3 ch8 2014-15
44 pages
TD2 - Statistiques - S5: Exercice 1
Pas encore d'évaluation
TD2 - Statistiques - S5: Exercice 1
6 pages
L3sid Se TD5
Pas encore d'évaluation
L3sid Se TD5
2 pages
130 Ti83plus
Pas encore d'évaluation
130 Ti83plus
3 pages
Cours ACP - Ouazza
Pas encore d'évaluation
Cours ACP - Ouazza
59 pages
Analyse Multidimensionnelle Des Données Master I, Data Science
Pas encore d'évaluation
Analyse Multidimensionnelle Des Données Master I, Data Science
56 pages
Corrigé Examen Blanc
Pas encore d'évaluation
Corrigé Examen Blanc
4 pages
Solutions TD 2-SMI-S6-2022 2023
Pas encore d'évaluation
Solutions TD 2-SMI-S6-2022 2023
8 pages
Cours AFC Ch7 Final
Pas encore d'évaluation
Cours AFC Ch7 Final
8 pages
Regression (1) - 250914 - 170601
Pas encore d'évaluation
Regression (1) - 250914 - 170601
147 pages
Examen Principale 2022
Pas encore d'évaluation
Examen Principale 2022
4 pages
Qualité de l'ajustement linéaire
Pas encore d'évaluation
Qualité de l'ajustement linéaire
3 pages
TD1 Hadamard
Pas encore d'évaluation
TD1 Hadamard
33 pages
Chapitre AFC
Pas encore d'évaluation
Chapitre AFC
25 pages
1 S
Pas encore d'évaluation
1 S
6 pages
Analyse Des Correspondances Multiples - 074240
Pas encore d'évaluation
Analyse Des Correspondances Multiples - 074240
30 pages
Analyse et Modélisation de Séries Temporelles en R
Pas encore d'évaluation
Analyse et Modélisation de Séries Temporelles en R
20 pages
Outil Prediction Aviator Avance
Pas encore d'évaluation
Outil Prediction Aviator Avance
2 pages
Examen de Statistique Descriptive Session 1 2017-2018
50% (2)
Examen de Statistique Descriptive Session 1 2017-2018
4 pages
Théorie et Simulation des Copules
Pas encore d'évaluation
Théorie et Simulation des Copules
61 pages
Resume de Spss
Pas encore d'évaluation
Resume de Spss
6 pages
9 Anova1
Pas encore d'évaluation
9 Anova1
21 pages
Analyse Factorielle
Pas encore d'évaluation
Analyse Factorielle
77 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
32 pages
TP5 SDN Clustering
Pas encore d'évaluation
TP5 SDN Clustering
1 page
Analyse des Correspondances Multiples
Pas encore d'évaluation
Analyse des Correspondances Multiples
19 pages