Analyse de la Corrélation - Production
Ce notebook analyse la corrélation entre différents indicateurs de production dans un
environnement simulé.
1. Introduction
L'analyse des données de production permet de comprendre l'impact de différents facteurs sur
le rendement industriel. Cette étude porte sur un ensemble de variables influant sur la
production totale d'une unité industrielle.
1.1 Objectif
L'objectif de cette analyse est d'étudier les relations entre les différents facteurs de production
et leur impact sur la production totale en utilisant des méthodes statistiques, notamment la
corrélation.
1.2 Rôle de la corrélation
La corrélation est une mesure statistique permettant d'évaluer la force et la direction du lien
entre deux variables. Elle permet d'identifier les facteurs ayant une influence significative sur la
production.
1.3 Utilisation de la corrélation
Nous analyserons l'impact des variables suivantes :
• Heures de travail : Temps total travaillé par l'unité de production.
• Matière première utilisée (kg) : Quantité de ressources consommées.
• Nombre d'employés : Effectif du personnel impliqué dans la production.
• Taux de défauts (%) : Proportion de produits défectueux.
• Maintenance (heures) : Temps consacré à la maintenance des équipements.
• Température des machines (°C) : Température moyenne de fonctionnement.
# Chargement des bibliothéques
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Chargement des données
data = pd.read_csv('donnees_production.csv')# Affichage des données
# Affichage des données
data
Unnamed: 0 Heures_Travail Matiere_Premiere_Utilisee_kg
Nombre_Employes \
0 0 41 1222.00
13
1 1 54 1438.55
11
2 2 49 500.78
6
3 3 45 1492.21
8
4 4 42 1117.48
13
5 5 55 1111.65
16
6 6 41 507.07
18
7 7 53 523.06
6
8 8 57 1024.77
14
9 9 45 899.86
13
10 10 45 546.67
14
11 11 58 1473.76
9
12 12 55 732.77
6
13 13 38 590.61
8
14 14 42 1118.39
16
15 15 58 882.46
19
16 16 37 1483.23
16
17 17 56 966.76
11
18 18 55 1359.94
16
19 19 36 1180.31
17
Taux_Defauts_% Maintenance_heures Température_Machine_C \
0 4.25 6.32 77.98
1 1.28 6.69 63.82
2 2.26 9.72 74.83
3 1.32 6.86 86.75
4 3.90 4.21 86.64
5 2.41 4.37 83.65
6 1.44 3.32 70.99
7 3.05 2.13 82.45
8 0.64 5.39 75.32
9 4.29 5.16 98.87
10 2.52 4.35 93.96
11 2.28 2.11 88.87
12 4.67 3.59 69.44
13 3.77 7.69 70.24
14 1.97 8.32 61.62
15 3.07 6.85 88.43
16 2.84 9.41 64.44
17 4.83 7.21 77.57
18 4.30 9.32 68.07
19 3.86 8.80 95.83
Production_Totale
0 273.54
1 529.22
2 -39.03
3 387.36
4 310.66
5 509.60
6 403.54
7 160.62
8 528.09
9 187.92
10 224.58
11 557.09
12 134.75
13 -32.50
14 394.18
15 398.88
16 396.79
17 177.09
18 372.24
19 225.43
# Exploration des données
data.info()
data.describe()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Unnamed: 0 20 non-null int64
1 Heures_Travail 20 non-null int64
2 Matiere_Premiere_Utilisee_kg 20 non-null float64
3 Nombre_Employes 20 non-null int64
4 Taux_Defauts_% 20 non-null float64
5 Maintenance_heures 20 non-null float64
6 Température_Machine_C 20 non-null float64
7 Production_Totale 20 non-null float64
dtypes: float64(5), int64(3)
memory usage: 1.3 KB
Unnamed: 0 Heures_Travail Matiere_Premiere_Utilisee_kg \
count 20.00000 20.00000 20.000000
mean 9.50000 48.10000 1008.616500
std 5.91608 7.66331 350.372903
min 0.00000 36.00000 500.780000
25% 4.75000 41.75000 697.230000
50% 9.50000 47.00000 1068.210000
75% 14.25000 55.00000 1256.485000
max 19.00000 58.00000 1492.210000
Nombre_Employes Taux_Defauts_% Maintenance_heures \
count 20.000000 20.000000 20.000000
mean 12.500000 2.947500 6.091000
std 4.173853 1.249509 2.391511
min 6.000000 0.640000 2.110000
25% 8.750000 2.187500 4.315000
50% 13.000000 2.945000 6.505000
75% 16.000000 3.987500 7.847500
max 19.000000 4.830000 9.720000
Température_Machine_C Production_Totale
count 20.000000 20.000000
mean 78.988500 305.002500
std 11.169571 174.362522
min 61.620000 -39.030000
25% 70.040000 185.212500
50% 77.775000 341.450000
75% 87.170000 400.045000
max 98.870000 557.090000
📊 Définition de la corrélation et interprétation
de l'intervalle [-1,1]
🔍 Qu'est-ce que la corrélation ?
La corrélation est une mesure statistique qui évalue la relation entre deux variables. Elle permet
de déterminer dans quelle mesure les variations d'une variable sont liées aux variations d'une
autre. La corrélation est souvent utilisée pour identifier des tendances ou des relations
potentielles entre des facteurs influents dans un ensemble de données.
📏 L'intervalle [-1, 1]
La corrélation est généralement représentée par le coefficient de corrélation de Pearson (r), qui
prend des valeurs comprises entre -1 et 1 :
Valeur de r Interprétation
r=1 Corrélation positive parfaite : lorsque l'une des
variables augmente, l'autre augmente aussi de
manière proportionnelle.
r = -1 Corrélation négative parfaite : lorsque l'une
des variables augmente, l'autre diminue de
manière proportionnelle.
r=0 Aucune corrélation : il n'y a pas de lien linéaire
entre les deux variables.
0<r<1 Corrélation positive plus ou moins forte.
-1 < r < 0 Corrélation négative plus ou moins forte.
🔹 Corrélation proche de 0 → Relation faible ou inexistante.
🔹 Corrélation proche de -1 ou 1 → Relation forte.
⚠️Attention : corrélation ≠ causalité ! Une forte corrélation entre deux variables ne signifie pas
nécessairement que l'une cause l'autre.
### Analyse de Corrélation
x= data.corr()
# affichage des valeurs de corrélation entre les indicateurs
print(x)
Unnamed: 0 Heures_Travail \
Unnamed: 0 1.000000 -0.015092
Heures_Travail -0.015092 1.000000
Matiere_Premiere_Utilisee_kg 0.061536 0.038412
Nombre_Employes 0.343163 -0.195812
Taux_Defauts_% 0.415481 -0.098086
Maintenance_heures 0.333235 -0.323660
Température_Machine_C -0.020179 -0.000435
Production_Totale -0.085327 0.317544
Matiere_Premiere_Utilisee_kg
Nombre_Employes \
Unnamed: 0 0.061536
0.343163
Heures_Travail 0.038412 -
0.195812
Matiere_Premiere_Utilisee_kg 1.000000
0.216390
Nombre_Employes 0.216390
1.000000
Taux_Defauts_% -0.103178 -
0.084721
Maintenance_heures 0.257978
0.214812
Température_Machine_C -0.085604
0.057695
Production_Totale 0.656661
0.500753
Taux_Defauts_% Maintenance_heures \
Unnamed: 0 0.415481 0.333235
Heures_Travail -0.098086 -0.323660
Matiere_Premiere_Utilisee_kg -0.103178 0.257978
Nombre_Employes -0.084721 0.214812
Taux_Defauts_% 1.000000 0.101049
Maintenance_heures 0.101049 1.000000
Température_Machine_C 0.179307 -0.344621
Production_Totale -0.547172 -0.216295
Température_Machine_C Production_Totale
Unnamed: 0 -0.020179 -0.085327
Heures_Travail -0.000435 0.317544
Matiere_Premiere_Utilisee_kg -0.085604 0.656661
Nombre_Employes 0.057695 0.500753
Taux_Defauts_% 0.179307 -0.547172
Maintenance_heures -0.344621 -0.216295
Température_Machine_C 1.000000 -0.074641
Production_Totale -0.074641 1.000000
# Affichage de la matrice de corrélation
plt.figure(figsize=(10, 6))
sns.heatmap(x, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Matrice de Corrélation')
plt.show()
Interprétation des résultats
Relation entre Matière Première et Production : La corrélation est positive et élevée (0.65),
indiquant que plus la quantité de matière première utilisée est importante, plus la production
augmente.
Impact du Nombre d'Employés : Une corrélation positive modérée (0.50) avec la production
totale, suggérant qu'une augmentation du personnel favorise la production.
Effet du Taux de Défauts : Une corrélation négative (-0.55) avec la production indique que plus le
taux de défauts est élevé, plus la production diminue.
Maintenance et Production : Une corrélation faible et négative (-0.21), montrant que trop de
maintenance peut réduire la production, mais l'effet est limité.
Température des Machines : La température des machines présente une corrélation très faible
avec la production (-0.07), suggérant un impact mineur.
Conclusion
Cette analyse met en évidence les facteurs influençant la production industrielle. Les résultats
montrent que l'optimisation des matières premières et de la main-d'œuvre peut améliorer
significativement la production. En revanche, un taux élevé de défauts a un impact négatif sur le
rendement. Ces informations peuvent aider les gestionnaires à prendre des décisions
stratégiques pour améliorer l'efficacité de la production.