Notions statistiques
fondamentales
Notions statistiques fondamentales
Pourquoi se servir des statistiques?
• Les statistiques fournissent une description numérique des données (mesures)
issues des processus de l’entreprise.
• Elles permettent une analyse factuelle des processus.
• Elles servent de langage commun qu’une organisation peut utiliser pour décrire
et analyser factuellement ses processus.
Nous effectuons Informations
Que les statistiques
des mesures pour Données transforment en … utilisables
obtenir des …
L’analyse des données par le biais des statistiques
permet de guider les décisions et les actions !
Notions statistiques fondamentales
Population: Tous les éléments possédant la caractéristique étudiée. Il n’est
souvent pas pratique de mesurer tous les éléments d’une population.
Echantillon: Un sous-ensemble de la population dont la taille est
significativement plus petite que la taille de la population. Les échantillons sont
utilisés pour estimer la population (faire des inférences), lorsqu’il n’est pas
possible de mesurer tous les éléments d’une population.
Paramètres Population Echantillon
Taille N n
Mesure individuelle X X
Moyenne
Ecart-type s
Variance 2 S2
Etendue R R
Notions statistiques fondamentales
Exemple - Caractéristique étudiée: diamètre d’une pièce cylindrique
Echantillon
(30 ou 50 pièces)
Population Prélèvement
(totalité de la (échantillonnage)
production)
Moyenne
inconnue
Ecart-type
inconnu
Estimation de la
population (inférence)
Notions statistiques fondamentales
Lors de la mise en application des statistiques:
Définir ce qui doit être mesuré
Définir le système de mesure
S’assurer que le système de mesure est fiable
Utiliser les outils statistiques pertinents
Être efficient (obtenir le maximum d’informations avec un minimum de données)
Types de données
Données
Données Données de
numériques
d’attribut comptage
variables
Mesurer Classifier Compter
Compter le
Sont des mesures Sont souvent nombre de
à partir d’une binaires: seuls défauts. Le
échelle continue. deux résultats résultat est un
(Par exemple: sont possibles. nombre discret.
longueur,
(Par exemple: (Par exemple:
température,
pièce bonne / pièce nombre de courts-
résistance
mauvaise) circuits sur une
électrique, …)
carte électronique)
Données numériques variables
Données numériques variables:
Les données numériques variables peuvent représenter par exemple:
• Un diamètre (en millimètres)
• Une température (en degrés Celsius)
• Une résistance électrique (en Ohm)
Données numériques variables
Description statistique:
• Calcul de la moyenne de la population ou d’un échantillon
• Calcul de l’écart-type de la population ou d’un échantillon
Modèle statistique:
• Les données numériques variables sont - sous certaines conditions - réparties
selon une Distribution Normale (Loi Normale).
Avantages des données numériques variables:
• Donnent des informations détaillées sur le processus à l’aide d’échantillons de
taille relativement petite.
Données d’attribut
Données d’attribut:
Les données d'attribut résultent d’une classification souvent
binaire. Elles peuvent représenter par exemple:
• Conformité de pièces de production (conforme / non-conforme)
• Respect du délai de livraison (respecté / non respecté)
Description statistique:
• Calcul d’une proportion ou d’un pourcentage (exemple:
proportion des pieces mauvaises dans un échantillon)
Modèle statistique:
• Le nombre de pièces défectueuses dans des échantillons de taille
constante suit - sous certaines conditions - la Loi Binomiale.
3 pièces
mauvaises Inconvénients des données d’attribut:
dans un
échantillon
• Les analyses sur la base de données d’attribut nécessitent le
de 12 pièces prélèvement d’échantillons de grande taille.
Données de comptage
Données de comptage:
Les données de comptage résultent du comptage du nombre de
défauts dans une pièce ou dans un échantillon de pièces. Elles
peuvent représenter par exemple:
• Nombre d’erreurs dans une facture
• Nombre de courts-circuits sur une carte électronique
Description statistique:
• Calcul du nombre moyen de défauts par unité (DPU)
Modèle statistique:
• Le nombre de défauts dans des échantillons de taille constante
(for samples of constant size) suit sous certaines conditions la Loi
Un total de de Poisson.
17 défauts
dans un
échantillon
de 12
pièces
Données numériques variables
Statistiques descriptives
Données numérisque variables - Statistiques descriptives
Paramètres de position (paramètres
de la tendance centrale):
• Moyenne
• Médiane
Paramètres de variabilité (paramètres
de dispersion):
• Etendue
• Écart-type
• Variance
Données numériques variables - Statistiques descriptives
• Ouvrez la feuille de travail MINITAB: “Basic_Statistics.MTW”
• Calculez des statistiques descriptives:
Stat > Statistiques élémentaires > Afficher les statistiques descriptives…
Paramètres de la tendance centrale - Moyenne
Moyenne:
• La moyenne est un paramètre de position. Elle indique la tendance centrale (le
centre de gravité des données).
Stat > Statistiques élémentaires > Afficher les statistiques descriptives… > Statistiques…
Population Échantillon
Paramètres de la tendance centrale - Médiane
Médiane:
• La médiane est un paramètre de position. Elle indique la tendance centrale.
• la médiane est le point central de l'ensemble des données, qu’elle divise en deux
moitiés de même taille.
Stat > Statistiques élémentaires > Afficher les statistiques descriptives… > Statistiques…
Paramètres de dispersion - Étendue
Étendue:
• L’étendue est un paramètre de variabilité (dispersion).
• C’est la différence entre la valeur maximale et la valeur minimale de l’ensemble
des données.
Stat > Statistiques élémentaires > Afficher les statistiques descriptives… > Statistiques…
Paramètres de dispersion – Écart-type
Écart-type:
• L’écart-type est un paramètre de variabilité (dispersion).
• L’écart-type correspond à l’écart moyen de toutes les observations par rapport à
la moyenne.
Population Échantillon
Paramètres de dispersion – Écart-type
Écart-type:
Minitab calcule toujours
l’écart-type en utilisant la
formule de l’échantillon
Paramètres de dispersion - Variance
Variance:
• Average squared deviation of each individual data point from the Mean.
Population Échantillon
Données numériques variables
La Loi Normale
Représentation graphique des données
numériques variables
• La distribution des données numériques variables peut être visualisée à l’aide
d’un histogramme.
• Un histogramme est un graphique à barres dans lequel les données sont
regroupées en intervalles.
• La hauteur de chaque barre montre combien de données appartiennent à
chaque intervalle.
Représentation graphique des données
numériques variables
• Le histogramme peut révéler des formes variées:
Forme en cloche – Distribution bi-modale
distribution normale
Asymétrie droite Asymétrie gauche
(asymétrie positive) (asymétrie négative)
Loi normale
• Les données numériques variables issues des phénomènes naturels
et des processus industriels suivent souvent - sous certaines
conditions - une distribution normale (loi normale).
La courbe normale en forme de
cloche est décrite par la fonction de
densité de probablité ci-dessous:
Loi normale
• Sur la courbe normale, l'écart-type est égal à la distance entre la moyenne et
le point d'inflexion de la courbe:
Loi normale
-6σ -5σ -4σ -3σ -2σ -σ µ +σ +2σ +3σ +4σ +5σ +6σ
Intervalle Proportion Intervalle Proportion
68,27% 99,9937%
95,45% 99,999943%
99,73% 99,9999998%
Loi normale
6
Cas particulier:
Processus centré 5
LSI Cible LSS
Performance du processus Performance du processus
LSS – LSI = 2. 1 sigma LSS – LSI = 8. 4 sigma
LSS – LSI = 4. 2 sigma LSS – LSI = 10. 5 sigma
LSS – LSI = 6. 3 sigma LSS – LSI = 12. 6 sigma
Loi normale
Performance du Processus centré Processus décalé de 1.5 σ
processus Conforme Non-conforme Conforme Non-Conforme
1 sigma 68,27 % 31.73 % 30.9 % 69.1 %
2 sigma 95.45 % 4.55 % 69.2 % 30.8 %
0.27 % 6.68 %
3 sigma 99.73 % 93.32 %
(2 700 ppm) (66 800 ppm)
0.006 4 % 0.62 %
4 sigma 99.993 6 % 99.38 %
(64 ppm) (6 200 ppm)
0.000 058 % 0.023 %
5 sigma 99.999 942 % 99.977 %
(0.58 ppm) (230 ppm)
0.000 000 2 % 0.000 34 %
6 sigma 99.999 999 8 % 99.999 66 %
(0.002 ppm) (3.4 ppm)
Données numériques variables
Test de Normalité
Test de normalité
• Les données numériques variables issues des phénomènes naturels et
des processus industriels suivent souvent - sous certaines conditions -
une distribution normale (loi normale).
• Il arrive que des séries de données numériques variables ne soient pas
normales parce que le processus est impacté par des causes spéciales
(processus instable).
• Certains processus produisent naturellement des données numériques
variables non-normales (asymétriques) qui ne suivent donc pas une
distribution normale.
Forme en cloche – Distribution bi-modale – Forme asymétrique –
Distribution normale Procesus instable Procesus naturellement
non-normal
Test de normalité
• Il existe des outils statistiques spécifiques pour l’analyse des données
normales. De même, l’analyse des données non-normales nécessite
l’utilisation d’outils statistiques appropriés.
• Afin de pouvoir mettre en œuvre les outils statistiques adéquats pour
l’analyse des données numériques variables, il est donc nécessaire de
vérifier la normalité des données.
• Le test d’Anderson-Darling peut être utilisé pour vérifier la normalité
d’un échantillon de données.
• Si nous savons par expérience que les données issues d’un processus
devraient suivre la loi normale, mais que le test de normalité indique
le contraire, nous pouvons en déduire que le processus est impacté
par des causes spéciales (processus instable). Dès que les causes
spéciales sont maitrisées, les données forment de nouveau une
distribution normale.
Causes spéciales => Opportunité d’amélioration
Test d’Anderson-Darling
Ouvrez la feuille de travail MINITAB: “[Link]”
Stat > Statistiques élémentaires > Test de normalité…
Le test d'Anderson-Darling
détermine dans quelle mesure des
données suivent la loi normale.
Si la valeur de p est
supérieure à 0,05, vous
pouvez supposer que les
données proviennent d’une
distribution normale.
Récapitulatif graphique
Stat > Statistiques élémentaires > Récapitulatif graphique…
Le résultat du test d’Anderson-Darling apparaît
également dans le rapport du récapitulatif
graphique. Si la valeur de P est supérieure à 0,05,
supposez que les données sont normales.
Rapport récapitulatif pour Dist A
Test de normalité d'Anderson-Darling
A au carré 0.18
Valeur de P 0.921
Moyenne 50.031
EcTyp 4.951
Variance 24.511
Asymétrie -0.061788
Aplatissement -0.180064
N 500
Minimum 35.727
1er quartile 46.800
Médiane 50.006
3e quartile 53.218
Maximum 62.823
Intervalle de confiance = 95 % pour la moyenne
36 40 44 48 52 56 60 49.596 50.466
Intervalle de confiance = 95 % pour la médiane
49.663 50.500
Intervalle de confiance = 95 % pour l'écart type
4.662 5.278
Intervalles de confiance = 95 %
Moyenne
Médiane
49.50 49.75 50.00 50.25 50.50
Test de normalité
Test de normalité
Résultat: Résultat:
Données Données non-
normales normales
Données
Processus instable
naturellement
(impactée par des
non-normales
causes spéciales)
(asymétriques)
Stabiliser le
processus (maitriser
les causes spéciales)
Exercice
Exercice – Test de normalité
1. Ouvrez la feuille de travail MINITAB: “[Link]”.
2. Vérifiez la normalité des échantillons Dist A, Dist B, Dist C, Dist D et Dist E