0% ont trouvé ce document utile (0 vote)
35 vues13 pages

Projet Stat Logiciel R

Ce rapport présente l'utilisation du logiciel R pour quatre méthodes statistiques clés : la régression linéaire simple et multiple, l'analyse des composantes principales (ACP) et l'analyse discriminante. Chaque méthode est expliquée avec des théories, des exemples de code R et des interprétations des résultats. Les perspectives d'évolution incluent l'application à des données massives et l'intégration avec le Machine Learning.

Transféré par

am.masfene
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
35 vues13 pages

Projet Stat Logiciel R

Ce rapport présente l'utilisation du logiciel R pour quatre méthodes statistiques clés : la régression linéaire simple et multiple, l'analyse des composantes principales (ACP) et l'analyse discriminante. Chaque méthode est expliquée avec des théories, des exemples de code R et des interprétations des résultats. Les perspectives d'évolution incluent l'application à des données massives et l'intégration avec le Machine Learning.

Transféré par

am.masfene
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Ministère de l'Enseignement Supérieure et de la Recherche Scient

Ecole Nationale Supérieure des Technologies Avancées

Département Génie Industriel et Maintenance

STATISTIQUe

RAPPORT SUR Le
LOGICIeL R

NOm :mAhIeddINe

PReNOm :mARwA

L’eNSeIGNANT ReSPONSAbLe de LA mATIèRe: [Link]


Sommaire

-Introduction

-Régression linéaire simple

-Régression linéaire multiple

-Analyse des composantes principales (ACP)

-Analyse discriminante

-Conclusion
1. Introduction

Le logiciel R s'est imposé comme une référence incontournable en analyse statistique grâce à
sa flexibilité et sa richesse fonctionnelle. Ce rapport détaille les travaux pratiques réalisés
pour maîtriser quatre méthodes fondamentales :

La régression linéaire (simple et multiple) pour l'étude des relations entre variables.

L'ACP pour la réduction de dimensionnalité.

L'analyse discriminante pour la classification supervisée.

Chaque section combine explications théoriques, exemples concrets avec codes R commentés,
et interprétations détaillées des résultats.
2. Régression linéaire simple

La régression linéaire simple permet d'étudier la relation entre une variable indépendante X
et une variable dépendante de Y .
Étapes clés :
Collecte des données : Préparer un jeu de données avec Y = β0 + β1X + ε

β0 : Ordonnée à l'origine.

β1: Pente de la droite.

ϵ : Terme d'erreur (bruit).

Méthode des moindres carrés : Minimise la somme des carrés des résidus pour estimer β0 et
β1.
x <- c(1, 2, 3, 4, 5) # Variable indépendante
y <- c(2.1, 3.9, 6.2, 8.1, 9.8) # Variable dépendante

# Ajustement du modèle
modele <- lm(y ~ x)

# Affichage des résultats


summary(modele)

Sortie typique :

Coefficients estimés (β0,β1 ).


R^2 : Qualité de l'ajustement (ex: 0.98 = 98% de variance expliquée).
Tests de significativité (p-value < 0.05 pour β1 ).

2.3 Visualisation

plot(x, y, pch = 19, col = "blue", main = "Régression Linéaire Simple")


abline(modele, col = "red", lwd = 2)
legend("topleft", legend = paste("R² =", round(summary(modele)$[Link], 3)))

3. Régression Linéaire Multiple

3.1 Fondements Mathématiques


Modèle :

Y=β0+β1X1+β2X2+…+βpXp+ϵ

Hypothèses :

Linéarité, indépendance des résidus, homoscédasticité.

3.2 Application Pratique


# Données avec 3 variables explicatives
data <- [Link](
Y = c(10, 15, 20, 25, 30),
X1 = c(1, 2, 3, 4, 5),
X2 = c(2, 3, 4, 5, 6),
X3 = c(0.5, 1, 1.5, 2, 2.5))

# Modèle
modele_multiple <- lm(Y ~ X1 + X2 + X3, data = data)
summary(modele_multiple)

Interprétation :

Adjusted R² : Pénalise l'ajout de variables non informatives.


Test F global : Vérifie si au moins un coefficient est non nul.
3.3 Diagnostic du Modèle :

# Analyse des résidus


par(mfrow = c(2, 2))
plot(modele_multiple)

4. Analyse des Composantes Principales (ACP)

Q-Q Plot : Normalité des résidus.


Residuals vs Fitted : Détection d'hétéroscédasticité.
Analyse des Composantes Principales (ACP)

4.1 Concepts Clés

Objectif : Réduire le nombre de variables en conservant l'information maximale.

Étapes :
Standardisation des données.
Calcul de la matrice de corrélation.
Extraction des valeurs/vecteurs propres.

4.2 Mise en Œuvre

library(FactoMineR)
data(iris)
acp <- PCA(iris[, 1:4], [Link] = TRUE, graph = FALSE)
# Variance expliquée
acp$eig

Résultats :

CP1 : 72.96% de variance.


CP2 : 22.85% de variance.

4.3 Visualisation

plot(acp, choix = "var", axes = c(1, 2))


fviz_pca_biplot(acp, label = "var", [Link] = "red")

5. Analyse Discriminante

L'analyse discriminante est une méthode statistique supervisée utilisée pour classer des
observations dans des groupes prédéfinis et comprendre les variables qui séparent ces
groupes. Elle est particulièrement utile en reconnaissance de formes, en biologie
(classification d'espèces), en marketing (segmentation de clients), etc.

Objectif :
Classer des observations dans des groupes prédéfinis.

5.1 Principes Mathématiques

L'analyse discriminante repose sur deux approches principales :


Analyse Discriminante Linéaire (LDA) :
Suppose que les classes ont la même matrice de covariance.
Maximise le rapport entre la variance inter-classe et intra-classe.

Fonction de décision linéaire :

δk(x)=x T Σ^ −1 μ k − 1/2 μ kT Σ ^−1μ k +log(π k )

où :

Σ = matrice de covariance (commune à toutes les classes),


μ k= moyenne de la classe
π k= probabilité a priori de la classe k.

Analyse Discriminante Quadratique (QDA) :

Relaxe l'hypothèse de covariance commune (chaque classe a sa propre matrice Σk).


fonction de décision quadratique :

δk(x)=− 1/2log∣Σ k ∣− 1/2(x−μ k) TΣ k−1(x−μ k)+log(π k )


5.2 Implémentation dans R

library(MASS)
modele_lda <- lda(Species ~ ., data = iris)
predictions <- predict(modele_lda)

# Matrice de confusion
table(iris$Species, predictions$class)

5.3 Validation

# Validation croisée
modele_lda_cv <- lda(Species ~ ., data = iris, CV = TRUE)
mean(modele_lda_cv$class == iris$Species) # Taux de succès

Sortie interprétée :

Coefficients discriminants : Pondérations des variables pour chaque fonction discriminante


(LD1, LD2).
Proportion de variance : Contribution de chaque fonction à la séparation des classes.

Exemple :

# 1. Création des données simulées


[Link](123)
fraude_data <- [Link](
montant = c(rnorm(900, 50, 10), rnorm(100, 150, 30)),
heure = c(rnorm(900, 15, 3), rnorm(100, 3, 2)),
fraude = factor(c(rep("Non",900), rep("Oui",100)))
# 2. Analyse Discriminante Linéaire
library(MASS)
model <- lda(fraude ~ montant + heure, data = fraude_data)

# 3. Prédiction et évaluation

pred <- predict(model, fraude_data)


conf_matrix <- table(Prédit = pred$class, Réel = fraude_data$fraude)
accuracy <- mean(pred$class == fraude_data$fraude)

# 4. Visualisation

plot(model, col = c("green","red") # Points verts (Non) vs rouges (Oui)


title("Séparation des transactions normales et frauduleuses")

# 5. Interprétation

cat("Matrice de confusion :\n")


print(conf_matrix)
cat("\nPrécision globale :", round(accuracy*100, 1), "%\n")
cat("\nCoefficients discriminants :\n")
print(model$scaling)
# 6. Export des résultats
[Link](conf_matrix, "matrice_confusion.csv")

6. Conclusion et Perspectives

Ce rapport a démontré l'application pratique de quatre méthodes statistiques essentielles dans


R:

-Régression linéaire (simple et multiple)


-Analyse en Composantes Principales (ACP)
-Analyse discriminante

-Principales réalisations :

Implémentation complète des méthodes avec codes R


Interprétation détaillée des résultats
Visualisations claires des analyses
Perspectives d'évolution :
Application à des données massives (Big Data)
Intégration avec le Machine Learning
Automatisation des analyses via RMarkdown

Annexes fournies :

Scripts R complets
Jeux de données utilisés
Références bibliographiques

Ces compétences ouvrent de nombreuses possibilités pour l'analyse de données dans divers
domaines professionnels et de recherche. Le rapport sert de base solide pour des applications
plus avancées en science des données.

Vous aimerez peut-être aussi