0% ont trouvé ce document utile (0 vote)
76 vues9 pages

Outils Statistiques pour l'Analyse des Données

Le document présente les outils statistiques pour l'analyse des données, en distinguant les types de variables (quantitatives et qualitatives) et les mesures statistiques associées. Il décrit les mesures de tendance centrale, de dispersion, de forme, ainsi que les tests statistiques et les représentations visuelles pour interpréter les données. L'analyse des données qualitatives est également abordée, mettant en avant l'importance des tests du Chi-2 et des méthodes de visualisation pour comprendre les relations entre les variables.

Transféré par

dlloaliim
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
76 vues9 pages

Outils Statistiques pour l'Analyse des Données

Le document présente les outils statistiques pour l'analyse des données, en distinguant les types de variables (quantitatives et qualitatives) et les mesures statistiques associées. Il décrit les mesures de tendance centrale, de dispersion, de forme, ainsi que les tests statistiques et les représentations visuelles pour interpréter les données. L'analyse des données qualitatives est également abordée, mettant en avant l'importance des tests du Chi-2 et des méthodes de visualisation pour comprendre les relations entre les variables.

Transféré par

dlloaliim
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

LES OUTILS STATISTIQUES POUR L’ANALYSE DES

DONNEES & QUELQUES EXEMPLES D’APPLICATION

Dans un tableau de données, les lignes représentent une entité, que l’on décrit à l’aide
d’informations en colonnes que l’on appelle des Variables.

Une variable est une caractéristique mesurable qui peut prendre différents valeurs.

On distingue plusieurs types de variables :


• Identifiant : codes qui permettent d’identifier chaque entité .
Exemple: code client, numéro de siret.
• Quantitative : est une caractéristique quantifiable dont les valeurs sont des nombres,
à l’exclusion des nonmbres qui correspondent en fait à des codes. Elle se subdivise en
deux groupes :
o Variable continue : on dit qu’une variable est continue, si elle prend un
nombre infini de valeurs réelles possibles à l’interieur d’un intervalle donné.
Exemple : la taille d'une personne, la température.
o Variable discrète : Contrairement à une variable continue, une variable
discrète ne peut prendre qu’un nombre fini de valeurs réelles possibles à
l’interieur d’un intervalle donné.
Exemple : le nombre d’enfant par famille.
• Qualitative : est une caractéristique non quantifiable. Elle peut être nominale ou
ordinale :
o Variable ordinale : est une variable dont les valeurs sont défines par une
relation d’ordre entre les catégories possibles.
Exemple : niveau de satisfaction (faible, moyen, élevé)
o Variable nominale : est une variable qui décrit un nom, une étiquette ou une
catégorie sans ordre naturel.
Exemple : le sexe, le genre de logement.
• Textuelles : reponse à une question ouverte dans une enquête, post sur un blog.

Comment traiter ces différentes variables ?


I. Les données quantitatives (Numériques)
Les mesures statistiques appliquées aux variables quantitatives apportent divers types
d’informations cruciales pour comprendre, analyser et interpréter les données. Voici un
résumé des types d’informations fournies par chaque groupe de mesures :
Données :
Les scores des étudiants sont les suivants : 65,70,75,80,85,85,90,95,95,100.

FERNANDA.T 1
1. Mesures de Tendance Centrale
• Moyenne :
o Informe sur le centre de gravité des données, ou le ‘score’ moyen
typique
o Aide à résumer l’ensemble des données avec une seule valeur
représentative.
65+70+75 +80+85+85+90+95+95+100 840
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 = = = 84
10 10

• Médiane
o Donne la valeur centrale, divisant les données en deux moitiés égales.
o Moins influencée par les valeurs extrêmes(outliers) que le moyenne.
Il y’a n = 10 valeurs, un nombre pair. La médiane correspondra à la moyenne
entre la valeur de rang 𝑛 ÷ 2 = 10 ÷ 2 = 5 et la valuer de rang (𝑛 ÷ 2) + 1 = (10 ÷
2) + 1 = 6
85 + 85
𝑀𝑒𝑑𝑖𝑎𝑛𝑒 = = 85
2

• Mode
o Indique la valeur la plus fréquence dans les données.
o Peut révéler la ou les valeurs les plus communes.
o Les valeurs les plus fréquentes sont 85 et 95.
2. Mesures de Dispersion
• Étendue :
o Montre l’intervalle entre la valeur minimale et la valeur maximale.
o Indique la dispersion globale des données.
𝐸𝑡𝑒𝑛𝑑𝑢𝑒 = 100 − 65 = 35

• Variance et Ecart-type
o Mesurent la dispersion des valeurs autour de la moyennne.
o Utile pour comparer la variabilité de datasets différents ou de nature
différente.
𝑛
1
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 = ∑( 𝑥 𝑖 − 𝑥̅ )²
𝑛
𝑖=1
1
= [(65 − 84)² + (70 − 84)² + . . . . + (100
10
− 84)²]
3. Mesures de position
• Quartiles :
o Définitions :
▪ Le premier quartile 𝑸𝟏 est la plus petite valeur de la série telle qu’au
moins 25% des valeurs sont inférieures ou égales à 𝑄1 .
▪ Le troisième quartile 𝑸𝟑 est la plus petite valeur de la série telle qu’au
moins 75% des valeurs sont inférieures ou égales à 𝑄3 .

FERNANDA.T 2
o Divisent les données en parties égales.
o Fournissent des points de repère pour comprendre la distribution des
données.
o Aident à identifier des valeurs extrêmes et à comprenndre la concentration
des données.

Exemple :
1. Ordonner les données.
10
2. Position du premier quartile 𝑝 = = 2.5 n’est pas un entier, on l’arrondit à
4
l’entier supérieur. Le premier quartile est donc la 3𝑒 valeur , soit 75.

4. Mesures de Forme
• Asymétrie (Skewness) :
o Indique la symétirie ou l’asymétrie de la distribution.
o Une asymétrie positive indique une queue étalée vers la droite, tandis qu’une
symétrie négative indique une queue étalée vers la gauche.
o Importance de l'Asymétrie
▪ Asymétrie positive :
• Indique qu'il y a plus de valeurs faibles que de valeurs élevées.
• La moyenne est généralement supérieure à la médiane.
▪ Asymétrie négative :
• Indique qu'il y a plus de valeurs élevées que de valeurs faibles.
• La moyenne est généralement inférieure à la médiane.
▪ Symétrie :
• Les valeurs sont distribuées uniformément autour de la
moyenne.
• La moyenne et la médiane sont à peu près égales.
Comprendre l'asymétrie aide à interpréter correctement les données, à identifier les
tendances et à faire des prévisions plus précises.

• Aplatissement (Kurtosis) :

o Indique la "queue" ou la concentration des valeurs autour de la moyenne.


o Une kurtosis élevée indique plus de valeurs extrêmes, une kurtosis basse
indique une distribution plus aplatie.
o Importance du Kurtosis

FERNANDA.T 3
▪ Kurtosis élevé (Leptokurtique) :

• Indique la présence de valeurs extrêmes fréquentes.

• Peut suggérer des risques plus élevés de valeurs aberrantes


dans des données financières ou de performance.
▪ Kurtosis moyen (Mesokurtique) :

• Indique une distribution normale des données.

• Les valeurs extrêmes ne sont ni trop fréquentes ni trop rares.


▪ Kurtosis faible (Platykurtique) :

• Indique une dispersion élevée des valeurs autour de la


moyenne.

• Peut suggérer une variété plus large de résultats dans des


enquêtes ou des sondages.
Comprendre le kurtosis aide à évaluer la probabilité et l'impact des valeurs extrêmes dans les
données, ce qui est crucial pour la prise de décision et l'analyse des risques.
5. Graphiques et Représentations Visuelles

• Histogramme :

o Montre la distribution des fréquences des données en intervalles.


o Aide à visualiser la forme de la distribution (symétrie, asymétrie, présence de
modes multiples).
• Boîte à moustaches (Boxplot) :
o Résume la distribution des données en indiquant la médiane, les quartiles, et
les valeurs extrêmes.

o Permet de détecter les outliers et de visualiser la dispersion.

6. Mesures de Relation
• Covariance :
FERNANDA.T 4
o Indique si deux variables varient ensemble et comment elles sont liées.

o Ne normalise pas la relation (dépend des unités des variables).

• Coefficient de corrélation de Pearson :

o Quantifie la force et la direction de la relation linéaire entre deux variables.


o Un coefficient proche de 1 ou -1 indique une relation forte, tandis qu'un
coefficient proche de 0 indique une absence de relation linéaire.
7. Tests Statistiques

• Test t de Student :
o Permet de comparer les moyennes de deux échantillons ou d'un échantillon
par rapport à une valeur hypothétique.

o Indique si la différence observée est statistiquement significative.


• ANOVA (Analyse de la Variance) :

o Compare les moyennes de trois groupes ou plus.


o Indique si au moins une des moyennes est significativement différente des
autres.

Conclusion
Chaque mesure statistique fournit une perspective unique sur les données :
• Les mesures de tendance centrale et de position offrent des informations sur le
centre et la distribution des données.
• Les mesures de dispersion et de forme révèlent la variabilité et la forme de la
distribution.
• Les mesures de relation et les tests statistiques aident à comprendre les relations
entre les variables et à vérifier des hypothèses.
• Les représentations visuelles facilitent la compréhension et l'interprétation rapide
des données.
En combinant ces mesures et techniques, on obtient une vue d'ensemble complète et
détaillée des caractéristiques des données quantitatives.

II. Les données qualitatives (catégorielles)


L’analyse des données catégorielles peut se faire à l’aide des méthodes statistiques adaptées
aux données catégorielles, telles que les tests du Chi-2, l’analyse de la distribution empirique,
l’analyse des tableaux de contingence. Ces méthodes permettent d’identifier les relations
entre les variables et de comparer les proportions ou les fréquences des catégories afin de
tirer des conclusions significatives.

FERNANDA.T 5
Les données catégorielles jouent un rôle essentiel dans les statistiques, car elles permettent
de comprendre les schémas et les relations que les données numériques pourraient ne pas
révéler. Par exemple, la compréhension ds préférences des clients et l’évaluation de
l’efficacité des traitements dans les études médicales reposent souvent sur l’analyse des
données catégorielles. De plus, lorsqu’elle est combinée à l’analyse des données numériques,
elle offre une compréhension plus complète des données.
1. Distribution empirique :
C’est un simple décompte du nombre de fois que chaque catégorie apparaît dans
l’ensemble des données.

2. Diagrammes à barres :
Une représentation visuelle de la fréquence ou de la proportion de chaque catégorie.

3. Diagramme circulaire :
Une représentation traduit l’idée d’un tout partagé en parties

4. Tests du du khi-deux :
Sont populaire dans l’analyse des données catégorielles pour tester les relations entre
les variables catégorielles. En comparant les fréquences observées dans les catégories
aux fréquences attendues, les tests du chi-2 déterminent s’il existe une assiciation
significative entre deux variables catégorielles. Par exempple, dans un ensemble de
données contenant des informations sur le sexe des élèves (masculin, féminin) et leur
choix d’activité extrascolaire (sports, arts, sciences), un test du khi-2 pourrait révéler
si le sexe influe sur le choix de l’activité.

FERNANDA.T 6
BILAN LES DIFFERENTS TYPES DE VARIABLES

QUANTITATIVE QUALITATIVE
IDENTIFIANT TEXTUELLES
Variables mesurables. Variables non mésurables

Codes qui DISCONTINUE CONTINUE ORDINALE NOMINALE


permettent
Fini Infini Avec ordre Sans ordre
d’identifier Ex :
chaque individu
statistique. Commentaire ,
réponse à une
Ex : Ex : Ex : Ex : question
Ex :
Nombre Taille Couleurs des ouverte dans
Numéro de d’enfants Densité Niveaux voitures une enquête
sécurité sociale, par foyer Température d’éducation (Rouge, Vert,
Bleu)
code client,
numéro siret

Les principaux indicateurs statistiques pour mesurer les


dépendances entre les variables.

Quantitative Qualitative

• Corrélation de pearson • Test de Student


• Corrélation de spearman • Test de Mann-Whitney
Quantitative • Corrélation de kendall • ANOVA
• Test de Wilcoxon

• Test de Student • Chi-2


• Test de Mann-Whitney U • V de Cramer
Qualitative • ANOVA • Le coefficient de contingence
• Test de Wilcoxon de pearson

FERNANDA.T 7
1. Pour les variables qualitatives :
• Le Chi-carré (χ²) : Utilisé pour tester l'indépendance entre deux variables qualitatives.
Il compare les fréquences observées dans un tableau de contingence avec les
fréquences attendues sous l'hypothèse d'indépendance.
• Le test exact de Fisher : Utilisé lorsque les effectifs sont faibles, pour tester
l'indépendance entre deux variables qualitatives.
• Le coefficient de contingence de Pearson : Indicateur qui mesure l'association entre
deux variables qualitatives. Il est dérivé du test du Chi-carré.
• Le V de Cramer : Mesure la force de l'association entre deux variables qualitatives. Il
est basé sur le Chi-carré et est ajusté pour le nombre de catégories des variables.

2. Pour les variables quantitatives :


• Le coefficient de corrélation de Pearson : Mesure la force et la direction de la relation
linéaire entre deux variables quantitatives. Il varie entre -1 et 1.
• Le coefficient de corrélation de Spearman : Utilisé lorsque les variables ne suivent
pas une distribution normale. Il est basé sur les rangs des données et mesure
l'association monotone entre deux variables quantitatives.
• Le coefficient de corrélation de Kendall : Autre mesure de l'association monotone
entre deux variables quantitatives, moins sensible aux valeurs aberrantes que le
coefficient de Spearman.

3. Pour les variables qualitatives et quantitatives :


• L'analyse de variance (ANOVA) : Utilisée pour comparer les moyennes de plusieurs
groupes (variables qualitatives) par rapport à une variable quantitative. Elle permet
de tester si les moyennes de différentes catégories de la variable qualitative sont
significativement différentes.
• Le test de Kruskal-Wallis : Une alternative non paramétrique à l'ANOVA lorsque les
conditions de normalité ne sont pas respectées. Il compare les rangs des groupes.
• Le test de Mann-Whitney U : Utilisé pour comparer deux groupes indépendants
lorsque la variable dépendante est quantitative et non normalement distribuée.
• Les coefficients de corrélation point bisériale et bisériale :
o Le coefficient de corrélation point bisériale est utilisé lorsque l'une des
variables est dichotomique (qualitative avec deux catégories) et l'autre est
quantitative.
o Le coefficient de corrélation bisériale est utilisé lorsque la variable
dichotomique est en fait une variable quantitative dichotomisée.
• La régression logistique : Utilisée lorsque la variable dépendante est qualitative
(binaire) et les variables explicatives sont quantitatives ou qualitatives. Elle permet
FERNANDA.T 8
d'évaluer l'impact des variables explicatives sur la probabilité d'occurrence d'un
événement.
4. Autres méthodes multivariées :
• L'analyse discriminante : Utilisée pour déterminer quelles variables quantitatives
différencient le mieux deux ou plusieurs groupes définis par une variable qualitative.
• L'analyse en composantes principales (PCA) et l'analyse factorielle des
correspondances (AFC) :
o La PCA est utilisée pour réduire la dimensionnalité des données quantitatives
tout en conservant autant que possible la variance des données.
o L'AFC est utilisée pour explorer et visualiser les associations entre deux
variables qualitatives.
Chacun de ces indicateurs ou tests a ses propres conditions d'application et fournit des
informations différentes sur la relation entre les variables étudiées. Il est crucial de choisir
l'indicateur ou le test le plus approprié en fonction des caractéristiques des données et des
objectifs de l'analyse.

FERNANDA.T 9

Vous aimerez peut-être aussi