Ministère de l'Enseignement Supérieure et de la Recherche Scient
Ecole Nationale Supérieure des Technologies Avancées
Département Génie Industriel et Maintenance
STATISTIQUe
RAPPORT SUR Le
LOGICIeL R
NOm :mAhIeddINe
PReNOm :mARwA
L’eNSeIGNANT ReSPONSAbLe de LA mATIèRe: [Link]
Sommaire
-Introduction
-Régression linéaire simple
-Régression linéaire multiple
-Analyse des composantes principales (ACP)
-Analyse discriminante
-Conclusion
1. Introduction
Le logiciel R s'est imposé comme une référence incontournable en analyse statistique grâce à
sa flexibilité et sa richesse fonctionnelle. Ce rapport détaille les travaux pratiques réalisés
pour maîtriser quatre méthodes fondamentales :
La régression linéaire (simple et multiple) pour l'étude des relations entre variables.
L'ACP pour la réduction de dimensionnalité.
L'analyse discriminante pour la classification supervisée.
Chaque section combine explications théoriques, exemples concrets avec codes R commentés,
et interprétations détaillées des résultats.
2. Régression linéaire simple
La régression linéaire simple permet d'étudier la relation entre une variable indépendante X
et une variable dépendante de Y .
Étapes clés :
Collecte des données : Préparer un jeu de données avec Y = β0 + β1X + ε
β0 : Ordonnée à l'origine.
β1: Pente de la droite.
ϵ : Terme d'erreur (bruit).
Méthode des moindres carrés : Minimise la somme des carrés des résidus pour estimer β0 et
β1.
x <- c(1, 2, 3, 4, 5) # Variable indépendante
y <- c(2.1, 3.9, 6.2, 8.1, 9.8) # Variable dépendante
# Ajustement du modèle
modele <- lm(y ~ x)
# Affichage des résultats
summary(modele)
Sortie typique :
Coefficients estimés (β0,β1 ).
R^2 : Qualité de l'ajustement (ex: 0.98 = 98% de variance expliquée).
Tests de significativité (p-value < 0.05 pour β1 ).
2.3 Visualisation
plot(x, y, pch = 19, col = "blue", main = "Régression Linéaire Simple")
abline(modele, col = "red", lwd = 2)
legend("topleft", legend = paste("R² =", round(summary(modele)$[Link], 3)))
3. Régression Linéaire Multiple
3.1 Fondements Mathématiques
Modèle :
Y=β0+β1X1+β2X2+…+βpXp+ϵ
Hypothèses :
Linéarité, indépendance des résidus, homoscédasticité.
3.2 Application Pratique
# Données avec 3 variables explicatives
data <- [Link](
Y = c(10, 15, 20, 25, 30),
X1 = c(1, 2, 3, 4, 5),
X2 = c(2, 3, 4, 5, 6),
X3 = c(0.5, 1, 1.5, 2, 2.5))
# Modèle
modele_multiple <- lm(Y ~ X1 + X2 + X3, data = data)
summary(modele_multiple)
Interprétation :
Adjusted R² : Pénalise l'ajout de variables non informatives.
Test F global : Vérifie si au moins un coefficient est non nul.
3.3 Diagnostic du Modèle :
# Analyse des résidus
par(mfrow = c(2, 2))
plot(modele_multiple)
4. Analyse des Composantes Principales (ACP)
Q-Q Plot : Normalité des résidus.
Residuals vs Fitted : Détection d'hétéroscédasticité.
Analyse des Composantes Principales (ACP)
4.1 Concepts Clés
Objectif : Réduire le nombre de variables en conservant l'information maximale.
Étapes :
Standardisation des données.
Calcul de la matrice de corrélation.
Extraction des valeurs/vecteurs propres.
4.2 Mise en Œuvre
library(FactoMineR)
data(iris)
acp <- PCA(iris[, 1:4], [Link] = TRUE, graph = FALSE)
# Variance expliquée
acp$eig
Résultats :
CP1 : 72.96% de variance.
CP2 : 22.85% de variance.
4.3 Visualisation
plot(acp, choix = "var", axes = c(1, 2))
fviz_pca_biplot(acp, label = "var", [Link] = "red")
5. Analyse Discriminante
L'analyse discriminante est une méthode statistique supervisée utilisée pour classer des
observations dans des groupes prédéfinis et comprendre les variables qui séparent ces
groupes. Elle est particulièrement utile en reconnaissance de formes, en biologie
(classification d'espèces), en marketing (segmentation de clients), etc.
Objectif :
Classer des observations dans des groupes prédéfinis.
5.1 Principes Mathématiques
L'analyse discriminante repose sur deux approches principales :
Analyse Discriminante Linéaire (LDA) :
Suppose que les classes ont la même matrice de covariance.
Maximise le rapport entre la variance inter-classe et intra-classe.
Fonction de décision linéaire :
δk(x)=x T Σ^ −1 μ k − 1/2 μ kT Σ ^−1μ k +log(π k )
où :
Σ = matrice de covariance (commune à toutes les classes),
μ k= moyenne de la classe
π k= probabilité a priori de la classe k.
Analyse Discriminante Quadratique (QDA) :
Relaxe l'hypothèse de covariance commune (chaque classe a sa propre matrice Σk).
fonction de décision quadratique :
δk(x)=− 1/2log∣Σ k ∣− 1/2(x−μ k) TΣ k−1(x−μ k)+log(π k )
5.2 Implémentation dans R
library(MASS)
modele_lda <- lda(Species ~ ., data = iris)
predictions <- predict(modele_lda)
# Matrice de confusion
table(iris$Species, predictions$class)
5.3 Validation
# Validation croisée
modele_lda_cv <- lda(Species ~ ., data = iris, CV = TRUE)
mean(modele_lda_cv$class == iris$Species) # Taux de succès
Sortie interprétée :
Coefficients discriminants : Pondérations des variables pour chaque fonction discriminante
(LD1, LD2).
Proportion de variance : Contribution de chaque fonction à la séparation des classes.
Exemple :
# 1. Création des données simulées
[Link](123)
fraude_data <- [Link](
montant = c(rnorm(900, 50, 10), rnorm(100, 150, 30)),
heure = c(rnorm(900, 15, 3), rnorm(100, 3, 2)),
fraude = factor(c(rep("Non",900), rep("Oui",100)))
# 2. Analyse Discriminante Linéaire
library(MASS)
model <- lda(fraude ~ montant + heure, data = fraude_data)
# 3. Prédiction et évaluation
pred <- predict(model, fraude_data)
conf_matrix <- table(Prédit = pred$class, Réel = fraude_data$fraude)
accuracy <- mean(pred$class == fraude_data$fraude)
# 4. Visualisation
plot(model, col = c("green","red") # Points verts (Non) vs rouges (Oui)
title("Séparation des transactions normales et frauduleuses")
# 5. Interprétation
cat("Matrice de confusion :\n")
print(conf_matrix)
cat("\nPrécision globale :", round(accuracy*100, 1), "%\n")
cat("\nCoefficients discriminants :\n")
print(model$scaling)
# 6. Export des résultats
[Link](conf_matrix, "matrice_confusion.csv")
6. Conclusion et Perspectives
Ce rapport a démontré l'application pratique de quatre méthodes statistiques essentielles dans
R:
-Régression linéaire (simple et multiple)
-Analyse en Composantes Principales (ACP)
-Analyse discriminante
-Principales réalisations :
Implémentation complète des méthodes avec codes R
Interprétation détaillée des résultats
Visualisations claires des analyses
Perspectives d'évolution :
Application à des données massives (Big Data)
Intégration avec le Machine Learning
Automatisation des analyses via RMarkdown
Annexes fournies :
Scripts R complets
Jeux de données utilisés
Références bibliographiques
Ces compétences ouvrent de nombreuses possibilités pour l'analyse de données dans divers
domaines professionnels et de recherche. Le rapport sert de base solide pour des applications
plus avancées en science des données.