0% ont trouvé ce document utile (0 vote)
583 vues41 pages

Statistiques Descriptives

Transféré par

ondo edou amaral
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
583 vues41 pages

Statistiques Descriptives

Transféré par

ondo edou amaral
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF ou lisez en ligne sur Scribd
COURS DE STATISTIQUES DESCRIPTIVES ANNEE ACADEMIQUE 2022-2023 Niveau d’etudes : Licence 1 COURS et EXERCICES CORRIGES Par Dr MABIALA Jean Félix Chargé de cours Courriel : mjfmabio@[Link]/mjfinabios@[Link]/félina_mabi Faculté de Droit et des Sciences Economiques de l'Université Omar Bongo : Département d'Economie BP : 3368 Libreville Gabon Tel : 73.02.80 Faculté de Lettres et des Sciences Humaines de I'Université Omar Bongo : Département de Sociologie Libreville Gabon Ecole Supérieure de Commerce et de Management (SUP DE COM), Libreville Gabon Ecole Nationale des Eaux et Foréts (ENEF) Libreville Gabon Académie Franco Américaine de Management (AFRAM) Libreville Gabon Université Africaine des Sciences (UAS) Libreville Gabon Ecole Supérieure de Gestion d’Informatique et des Sciences (ES-GIS) Libreville Gabon EM-GABON Université Libreville Gabon AVANT-PROPOS Ce support de cours et d'exercices s'adresse principalement aux étudiants des sciences de gestions, Sciences économiques et accessoirement a tout chercheur. Ce manuel permet a toute personne une remise & niveau rapide en ce qui concerne I’essentiel en statistique descriptive. Une série exercices d’application traités ou non traités dans le cours permettent de tester aptitude a raisonner, a calculer, & analyser et a interpréter les résultats obtenus des données statistiques. Introduction Dans environnement économique et sociologique actuel, I"information statistique disponible est vaste. Les dirigeants qui ont le plus de suecés sont ceux qui peuvent comprendre information et Vutiliser. Les sociologues utilisent des techniques d’enquéte basée sur les échantillons statistique pour mener des opérations de collecte des données sur le terrain. En économie, on demande souvent aux économistes de faire des prévisions & propos de certains faits Sconomiques De nos jours, en raison de l'importance de la qualité, le contréle de la qualité est devenu une application primordiale de la statistique dans la gestion de la production. L.1- Généralités Rassembler les données démographiques, économiques, sociales, techniques sur des populations @'individus (hommes, entreprises, nations.) est le premier pas vers l'appréhension d’une certaine “réalité” des phénoménes étudiés. Résumer les données, les transformer, sous la forme de quelques indicateurs numériques ou graphiques (diagramme en baton, diagramme circulaire, histogramme, quantiles, écart type, ...) est le second pas de ceite démarche. Il permet : = de synthétiser l'information; "de la visualiser ; de l’appréhender globalement ; de comparer des informations sur plusieurs populations, Ces techniques relévent des statistiques qui, par définition, donnent une description simplifige des faits étudiés & partir des tableaux, des graphiques et des approches numériques qui sont utilises pour résumer des données. uobjectif final de la statistique ne consiste pas a seulement compiler des informations chiffrées, mais 4 verifier expérimentalement la validité de théories, économiques, sociologiques et 4 prendre des décisions 1.2- Eléments de définition > Statistique : La statistique est une méthode générale de recherche, Voutil avec leque! on travaille une matiére premigre constituée par les « statistiques» (ou données statistiques). Son but est détudier les phénoménes pour permettre de prendre des décisions. Les statistiques sont l'art et la science de collecter, analyser, présenter et interpréter les données. > Information : L’information est donc la base de toute étude, La fidélité de cet principal dans la collecte des données expérimentale formation d ver le souci cons Les méthodes statistiques permettent de synthétiser des résultats et d’induire des lois que l'on doit cnregistrer avec un certain degré d’ approximation, > Les données : Les faits et les chiffres qui sont collectés, analysés et résumés pour étre ensuite interprétées, > Ensemble Les données collectées dans une étude particuliére forment l'ensemble de données de l'étude. Le tableau suivant présente un ensemble de données contenant des informations financieres sur 25 entreprises, issues de la base de données Stock Investor Pro, Tableau | : Ensemble de données contenant des informations financiéres de 25 entreprises Award Software ‘AWRD. ‘Orc 15,7 15 225 ‘Chesapeake Energy CHK NYSE 255.3 7.880 127 Craig Corporation CRG NYSE 294 17,000 7S Edicto Ressources EDT. AMEX 254.5 9.688 60 ‘Source : Sook veer Pro, Associaton amérsine ds hvesteeurs ndviel, 31a 1997. > Eléments : Les éléments sont les entités auprés desquelles les données sont collectées. Pour l'ensemble de données du tableau 1, chaque entreprise est un élément. Puisqu’il y a25 entreprises, il y a 25 éléments dans l'ensemble de données. > Caractéres ou variables statistiques Une variable est une caractéristique des éléments & laquelle on s'intéresse. L’ensemble de données du Tableau/ contient 5 variables (voir le tableau ci-dessus) 85 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 20 On peut n'étudier que certaines propriétés des unités statistiques, proprigtés appelées caractéres ou variables statistiques, propriétés distinctives des unités statistiques dune population, Exemple : taille, poids, nombre de défauts, effectifs d’une usine. Le caractére, I’aspect de I’ unité statistique que l'on retient dans l'analyse peut étre ~ qualitatifet peut comporter plusieurs modalités ou variantes : une pigce bonne ou mauvaise, une catégorie socioprofessionnelle (CSP), ~ quantitatif et peut concerner une grandeur continue ou discontinue. > Variable statistique discréte : La variable statistique X est dite diseréte lorsqu’elle ne peut prendre que des valeurs isolées XpXypeneenXy (OW

Variable statistique continue : La variable statistique X est dite continue lorsqu’elle peut prendre n’importe qu’elle valeur dun intervalle [a, b] Exemple : durée d’une conversation téléphonique. > Population : Ensemble de tous les éléments considérés dans une étude particuliére > Echantillon : sous - ensemble dune population statistique. Léchantillon est aléatoire lorsque son prélévement dans la population statistique a été soumis aux lois du hasard. ‘On appelle échantillonnage le prélevement d’échamtillons. Le rapport t de Veffectif'n de I’échantillon 4 leffectif N de la population, dans laquelle il a été prélevé, est appelé taux d’échantillonnage ou fraction de sondage = et On appelle base de sondage la liste exhaustive des unités statistiques ow individus de la population - mére. > Effeetif ou fréquence absolue: le nombre de fois que se répéte la modalité du caractére pu de la variable & étudier Modalité : la valeur numérique ou non que prendre une variable Fréquence relative : noté fi = ni/N Centre de classe : milieu de la classe, noté Xi = (aitbi) /2 Amplitude : la différence entre la borne supérieure et inférieure de la classe, noté Ai vvy w Conelusion : Dans toute statistique, il est indispensable de donner une définition claire, précise et stable des unités statistiques afin d’éviter des incompréhensions et des erreurs, soit lors du rassemblement des données, soit lors de leurs interprétations 86 Cours de Statistiques descriptives — Dr MABIALA Jean Félix — année académique 2022-2023, IL1 Variables qualitatives ILL.1. Définition Une variable est qualitative si ses modalités ne sont pas mesurables. Exemple : Pour étudier I’échee scolaire 4 I’école publique de belle vue 2. variable le sexe, Age, l'origine sociale des éléves, groupe eth seul caractére qu’est le sexe, nous aurons le tableau suivant : n peut choisir comme caractére ou jue, nationalité, Si nous prenons un Gargon 125 289 Filles 139 [287 l Total 264 576 tére nominatif sexe, Et fille Gargon est la modalité 1 de la variable qualitative nominative ou du cara la modalité 2 de cette variable [NB : dans le cas des variables nominatives, celles-ci peuvent étre de type ordinal. Exemple 2 : répartition (ou distribution) des éléves de lécole de Bellevue en juin 2018, selon leur conduite. Excellente 52 Trés bonne 3 Bonne 96 Passable “100 Juste moyen 99 Mauvaise 101 Tres mauvaise | 155 Total (des 7 modalités dela variable) | 666 Les exemples ci-dessus nous montrent que les caractéres qualitatifs, appelés aussi variables nominales ou variables catégorielles, ont des attributs dont les modalités ne sont pas mesurables, ne sont pas des nombres. Ainsi, les variables nominales sont constatées, comme on constate par exemple le sexe ( féminin) de individu, la nationalité ( gabonaise, la catégorie socioprofessionnelle ( cultivateur), ou la conduite trés mauvaise d’un éléve, ete Chaque variable se subdivise en modalités ou catégorie. A chaque modalité correspond un nombre, un chiffre (donc une valeur numérique) qui est appelé effectif ou fréquence absolue. Cours de Statistiques descripiives — Dr MABIALA Jean Félix — année académique 2022-2023, 11.1.2 Quelques représentations graphiques courantes En statistique, les représentations graphiques traduisent, de fagon normée, ce besoin de voir de ses yeux une image qui décrit des faits observés. Les normes utiles des graphiques sont : - De montrer les éventuelles relations entre les variables ; = De synthétiser une distribution ; ~ De comparer des données de valeurs différentes, Nous ne pouvons passer en revue tous les types de représentations graphiques, dont plusieurs supposent des cours particuliers pour en apprendre la construction parfois complexe. Mais notons que les étudiants ont le devoir d’apprendre le simple outil informatique (logiciel) appelé Excel. Cet outil permet de construire facilement toutes les représentations graphiques possibles des lors que les données a représenter ont été bien rentrées dans la base des données. Deux modes de représentation graphiques sont généralement utilisés : > Les graphiques a colonnes ou en bande ou en tuyau d’orgue > Diagramme a « secteurs » circulaires ou semi-circulaire > Mais bien d'autres représentations sont possibles. Exemple | En 2000 les recettes du budget de MAYEVILLE se présentaient de la fagon suivante (En milliards de franes) ‘Taxe sur valeur ajout Impét sur revert 15 Impot sur les socigtés 7 Taxes sur les produits pétroliers 5 Total x > Représentation par un diagramme circulaire (dit « Camembert ») On doit partager 360° en secteurs proportionnels aux effectifs, Par exemple, l'eflectif 5 correspond 60%5 — 360. 16,667% = 60° d°oi Ie tableau 1 Aun angle de: x 30 Recettes [3 [15_|7 3 30 %. 10% [50% |23,333% | 16,667% [1 ‘Angles [36 [130 [84 60 360 88 Cours de Statistiques descriptives — Dr MABIALA Jean Félix — année académique 2022-2023, tect! se 10% 50% Fig, H-1Représentaion par secteur. Reparttion des receies du budget d'ANGOVILLE selon leur origine Notons Dans le graphique circulaire, les secteurs représentatifs ont une aire et par conséquent un angle au centre proportionnel aux effectifs (montants des recettes) des modalités (sources des recettes) correspondantes, Le graphique est tracé A I’aide d'un rapporteur aprés que I’on ait calculé angle au centre relatif a chaque secteur. > Représentation par bani tuyau d’orgue) Les différentes modalités du caractére (diverses sources de recettes du budget MAYEVILLE) sont représentées par des rectangles dont la base est constante et dont la hauteur et l’aire par conséquent, est proportionnelle aux effectifs (montants des recettes). Répartition des recettes du budget MAYEVILLE selon leur origine, eect Fig, 11-2 Représentation par tuyau d orgue. Notons La représentation par secteur permet, mieux que les tuyaux d’orgue, de visualiser l'importance relative (en %) de chaque source de recettes, importance figurée par la valeur de I'angle au centre correspondant. Elle permet aussi d’établir des comparaisons entre plusieurs faits observés du méme phénoméne dans I'espace et dans le temps, 89 Cours de Statistiques descriptives — Dr MABIALA Jean Féltx— année académique 2022-2023. Exemple 2: En 2000, un recensement des secteurs d’acti permet d’établir le tableau suivant : des régions TCHAYEVILLE et de NDIVILLE, Effectifs|% | Angle | Effectifs Agriculture|1300__[5.2__/18.72__ [3320 |16.6 _|59.76 Industrie [8425 [33.7 [121.32 [8120 [40.6 | 146.16 TCets 115275 [61.1 [219.96 [8560 [42.8 [154.08 Total 25000 [100 [360 [20000 |100__ [360 Diagramme en secteur circulaire des secteurs d'Activité Tchayeville Agrcuteur Industrie atTcas Diagramme en secteur circulaire des secteurs d' Activité de Ndville Agriculteur aindustio orces: Comparaison de la structure de l'emploi civil par grand secteur d activité & Tehayeville et Ndiville Le rapprochement des aires des différents secteurs permet les’ comparaisons des effectif’s en valeur absolue. Ainsi il apparait que la part de l'agriculture est beaucoup plus évoluée & Ndiville qu’ Tehayeville, celle du secteur <> (transport, commerce, service) est notablement plus faible. IL.2. Variables quantitatives MW - Définition : 90 Cours de Statistiques descriptives — Dr MABLALA Jean Félix année académigue 2022 Une variable est quantitative si ses modalités sont mesurables ou repérables. Ty a deux sortes : > Les variables quantitatives diserétes > Variables quantitatives continues [Link]. Variable quantitative discréte ou discontinue Si nous étudions le nombre d’enfant par ménage, on peut avoir le tableau ei-aprés. Tableau : Nombre Eee Mayumba en 201 0 27 1 53 2 70 3 80 4 75 Total 102 Nous sommes en présence dune variable ou caractére quantitatif discréte car on ne peut jamais trouver un demi-enfant (0,5 enfant vivant dans une famille) ou % d’enfant. On ne peut dénombrer que des enfants entiers. [Link]. Représentation graphiques possibles La représentation graphique des fréquences ou des effectifs est le diagramme en batons (des effectifs) A chaque valeur x; de la variable, portée en abscisses, on fait correspondre un segment vertical de longueur proportionnelle a I’effectif (ou a la fréquence) de cette valeur. Exemple Voici le relevé de notes par ordre croissant dune classe : 7,1,1,8,8,10,10, 10,12,12,12,13,13,13,13,13,14,14,16,16 Tableau des effectifs et fréquences cumulées (croissantes). Notes 7 10 12 13 14 Effects (my) | 3 3 2 Effectifs 3 16 18 ccumulés (Ni) (1145) | 1642) Fréquences cs = 2 (i) 20 . 20 20 oT) 15%) 15%) | 25%) | 10%) Fréquences: 5 3 z z 2 ; x x x 30 curmulées (Fi) | caisysy | (25%) | (aor | (35%) | (80%) | 90%) | caa0%) L’effectif'eumulé correspond a la note 8 (par exemple) est la somme des effectifS des notes inférieures ou égales a 8 (ici égal a 5). Lreffectif total est la somme des effectifs (ici égal a 20). 91 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023. Une variable est quantitative si ses modalités sont mesurables ou repérables. Ilya deux sortes > Les variables quantitatives diserétes > Variables quantitatives continues 1L.2.1.1, Variable quantitative discréte ou discontinue Si nous étudions le nombre d’enfant par ménage, on peut avoir Ie tableau ci-aprés. Tableau : Nombre d’enfar rina ba cn 2015. 27 0 1 53 2 70 3 30 4 75 Total 7 102 Nous sommes en présence d'une variable ou caractére quantitatif diseréte car on ne peut jamais trouver un demi-enfant (0,5 enfant vivant dans une famille) ou ‘4 d’enfant. On ne peut dénombrer que des enfants entiers. [Link]. Représentation graphiques possibles La représentation graphique des fréquences ou des effectifs est le diagramme en batons (des effectifs) A chaque valeur xide la variable, portée en abscisses, on fait correspondre un segment vertical de longueur proportionnelle a l’effectif (ou A la fréquence) de cette valeur. Exemple Voici le relevé de notes par ordre croissant d’une classe : 7,7,7,8,8,10,10, 10,12,12,12,13,13,13,13,13,14,14,16,16 Tableau des effectifs et fréquences cumulées (croissantes). Notes z 13 16 Effectifs (a) 3 3 2 Effectifs 3 16 20 cumulés (Ni) (1145) (1842) Fréquences 3 3 2 ® 20 20 0 (15% (= 25%) (10%) Fréquences ai fu 2 cumulées (Fi) | 72, (80%) abe, L'effectif cumulé correspond a la note 8 (par exemple) est la somme des effectifs des notes inférieures ou égales a 8 (ici égal 45). Lreffectif total est la somme des effectifs (ici égal a 20). a1 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023. Les fréquences sont les quotients des effectifs des modalités par Meffectif total. Elles sont les exprimées souvent en pourcentage et noté fi= mi/N Le diagramme en baton y relatifest le suivant. 7 8 10 12 13 14 16 Fig : Répartition des notes obtenues au devoir de statistique, 1° Année Sociologie [Link], Variable quantitative continue Par contre, si nous étudions par exemple les résultats des éléves du tableau ci-aprés selon leurs de statistique appliquée en sociologie) a l’examen, nous aurons : 0-6 52 6-10 63 10-12 96 12-14 100 14-16 99) 16-18, 101 18 et plus 153 Total (ily a7 modalités de la variable note) : (666 | La variable « notes » est une variable numérique ou quantitative continue par ce que, 4 l'intérieur de chaque classe, cette variable peut prendre toutes les notes (ou valeurs) intermédiaires. Par exemple dans derniére classe, les éléves peuvent obtenus les notes 18 ou 18,01 ; 18,02 ; 18,03. ooo HELGE 19,02 ; ID Ab gin 5 1999520. En ce qui concerne l'exemple sur les résultats scolaires par dge, école publique de bellevue, en juin 32018. 92 Cours de Statistiques descriptives —_Dr MABIALA Jean Félix — année académique 2022-2023. 44 moins de 7 ans 58 65 7a moins de 10 ans 84 122 108 moins de 13 ans 75. 175 De 13 a moins de 16 ans 47 214 Total (des 4 modalités) 264 516 Ce regroupement en 4 classes introduit deux autres concepts subséquents, l'amplitude, centre de classe et la densité. Noton: Plus généralement, soit C le caractére (variable) qui comporte k modalités. On observe n individus, et dresse le tableau suivant composé des couples (Ci, ni): 7 est la fréquence relative de la modalité Ci dans la population. On a n 7 Pour les caractéres quantitatifs, on calcule l’effectif eumulé Nix} Din, . et la fréquence cumulée Dans le cas d'une variable diseréte, le couple (Ci, ni) devient (x, mi), Dans le cas dune variable quantitative continue, on considére la classe Ci d’extrémités b 1 , et bi telle que 4, Amplitudes égales Exemple : Ona mesuré la taille de 30 étudiants. Les mesures sont regroupées en classes. La série statistique est alors présentée sous la forme du tableau suivant : 1305t <1,40]1,40< 1 <1,50 [1,505 1<1,60 [1,605 1<1,70 3 15 7 5 3 18 25 30 Représentation de la série par un histogramme Les classes étant d’amplitudes égales, il suffit que chaque rectangle ait une hauteur proportionnelle & la fréquence (relative ou absolue) de cette classe. 16 Fig : Répartition de la taille de étudiants ; 24PP, 1998, > Les amplitudes sont inégales I faut construire des rectangles dont la hauteur est proportionnelle @ la densité, ce qui permet ’assurer une surface proportionnelle & la fréquence. Ici, on reporte les valeurs de fj pour obtenir un histogramme de fréquences relatives); et on divise fi ou ni par le rapport des amplitudes quand elles ne sont pas égales a l’amplitude de l'unite, xi [10.20[ [20,30[ (30.50, [50,905 [90 100, Total ni 3 10 4016025 240 fi 208% 4.16% 16.67% 66.67% 10.42% 1 ai io 20 ~40—«*0 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023, 60 30 10 10 20 30 50 90 Xi Notons, Sans cette rectification I'histogramme aurait é16 faux | Car il représente I'aire et non la hauteur qui est proportionnelle a f; ou m. La surface totale de Vhistogramme n'est pas modifiée par le regroupement des classes, Il y a <>. Exemple Le tableau suivant retrace le nombre de taxis et les distances parcourues avant une premigre panne : Ci(millier dekm) [0-5 [5-7 [7-9 79-15 [total Effectifs (nm) 15s__[78__ [36 [21 [150 Nit 1s [93 [129 [150 Nit 150 [135/47 [21 Dans le tableau précédent la troisiéme colonne par exemple s’interpréte ainsi : 129 taxis ont pareouru au plus 9000km et 57 taxis ont parcouru au: moins 7000km avant d’avoir une premiére panne, On en déduit le tableau suivant : ti 0 5 7 9 15 Nombre de taxis ayant 0 15 3 129 | 150 parcoury au plus ti (millier de km) ‘Nombre de taxis ayant 150 135 37 20 0 parcouru au moins ti (millier de km) Remarque : La somme des effectifs de chaque colonne est égale a effectif total, Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023. 95 Les données ne nous permettent pas de déterminer par exemple le nombre de taxi ayant parcouru au ‘moins 10km par exemple. Toutes séries (ou distribution) statistique est analysé a travers un certain nombre de caractéristiques (ou valeur, ou mesures), dites élémentaires. Ces caractéristiques sont de trois grandes catégories > Les caractéristiques de tendances (valeurs) centrales ou de position ; > Les caractéristiques dispersion ; > Les caractéristiques formes et de concentration, IIL1 Caractéristiques de valeurs centrales Comment déterminer une valeur qui soit susceptible d’étre tenue pour « représentative » d'une série entiere ? la statistique utilise trois possibilités : > Les moyennes de grandeur (moyenne arithmétique, moyenne harmonique, moyenne géométrique, moyenne quadratique) > Les moyennes de repérage ou d’ordre (médiane, médiale et les quantiles : quartiles, déciles et centiles) ; > Les moyennes de fréquence (mode). ILL1.1. Les moyennes de grandeur Elles se divisent en moyennes simples et en moyennes élaborées, existe 4 moyennes simples élémentaires : moyenne arithmétique, moyenne harmonique, moyenne géométrique, moyenne quadratique. Nous allons mettre l'accent sur la moyenne arithmétique. Soit un ensemble numérique X a n éléments : X Cas diseret Moyenne arithmétique : M Cas continu Moyenne arithmétique pondérée : Mp Exemples: Pour cette série statistique (tableau 2), rappelons que la moyenne des notes obtenues est le nombre défini par une moyenne arithmétique Pour le calcul de cette moyenne, on peut additionner les 20 notes puis diviser la somme par 20, mais il est préférable de calculer la moyenne pondérée en utilisant le tableau 2 suivant. Notes xi [effectifS ny [nix 7 3 21 8 2 16 10 3 30. 12 5 36 Cours de Statistiques deseriptives — Dr MABIALA Jean Félix année académique 2022-2023. B 5 65. 14 2 28 16 2 32 Totaux [20 228 3p = LA (moyenne arithmétique de la classe) TI1.1.2, Les moyennes d’ordre ou de repérage Il existe plusieurs moyennes d’ordre (dle rang) : - Médiane La médiane est la valeur du caractére qui occupe le milieu de la distribution statistique. Pour une série classée, la médiane est la valeur du caractére qui partage Ia série en deux parties d'égale fréquence (relative ou absolue). C’est donc la valeur du caraetére pour laquelle la fréquence cumulée est égale , Ll, [Fara ey, 2 2 Dans le cas d'une variable discréte, il n’y a généralement pas de valeur correspondant strictement & cette définition. L'interprétation de la valeur trouvée est parfois incertaine car |'équation (1) n'a pas souvent de solution exacte. termination > Cas d’une variable diseret. Pour trouver la médiane, il faut : 1- ranger par ordre croissant ou décroissant les nombres de la suite. 2+ Examiner la parité de la suite a) Si la suite posséde un nombre impair de termes soit (2k + 1), la médiane est constituée par le (k + 1) i®"* terme, b) Si la suite posséde un nombre pair de termes soit (2k), la médiane est constituée par la ‘moyenne arithmétique du (k) i*™* et (k + 1) i" terme. Exemple Trouver la médiane des distributions suivantes : xi_ [0 [1 [2 [3 [4 7s [7 [8 [Tort afi iii 2 fai fio Nit]i [2 [3 [s Te [7 [Ts [9 La médiane est Me = 3, ce qui correspond a I’effectif cumulé Na =5 > Cas dune variable continu La détermination de la médiane se fait alors approximativement, par interpolation linéaire Exemple : Déterminons la médiane de la distribution suivante : Classe 045 [5a 10 [10430 [30450] 97 Cours de Statistiques descriptives — Dr MABIALA Jean Félte— année académique 2022-2023. Fréquence i 2 3 4 Fréquence cumulée Croissante s La médiane est la valeur Me du caractére qui correspond 4 l’effectif cumulé 5 donc elle sera telle o_ [10 Amplitudes de classe sont égales : On définit la classe modale comme la classe (ou M'histogramme) correspondant a la fréquence maximale, Exemple _Soit la série elassée suivante : (Tableau ci-aprés) Classe 0-10 10-20 ‘(20-30 30-40 Fréquence 3: 3 4 1 Par convention, on peut prendre le mode Mo comme la valeur qui occupe le centre de la classe, soit ici, Mo = 25. On peut aussi déterminer graphiquement la valeur du mode (a Vintérieur de la classe modale par la méthode des diagonales). 98 Cours de Statistiques descriptives — Dr MABIALA Jean Félix—année académique f}] 0 40 x > Amplitudes de classe sont inégales 11 faut done « corriger » les effectifs ou les fréquences relatives, de la méme maniére que l'on avait fait pour construire Mhistogramme sur classes inégales, et la détermination du mode se raméne a la détermination précédente : classe modale et graphe On définit la clase modale comme la classe (ou I"histogramme) correspondant a la densité maximale (ou fréquence corrigée maximale). Le calcul de la détermination de la classe modale se fait en deux étapes : Calcul des amplitudes ai ; Calcul des densités d, (relative ou absolue) Par convention, on peut prendre le mode Mo comme la valeur qui occupe le centre de la classe modale, soit ici, Mo = 70, correspondant 4 hi= 60. On peut aussi déterminer graphiquement la valeur du mode (A 'intérieur de la classe modale par la méthode des diagonales). xi [10,20[ [20,30 [30.50[ [50.90 [ [90.100 [ ni 5 10 3024030 ai 10 10 2040. 10 05 is 6 3 7 classe dominante Détermination graphique En effet d'un point de vue théorique, le mode est I'abscisse correspondante & l’intersection des droites AB et CD, soit MM Il différe légerement du Mo précédemment utilisé By Bthy On démontre que : My = a+ xa; avec [a;f]la classe modale d’amplitude a, ni 99 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 202: feces bi ' 5 enim ae oe i A 1 rs ; ie i os I 1 2030 4 wi) [Mor] p90 10 x Les plus fréquemment ut étendue, la variance, I’écart type et le coefficient de variation. 11.2.1. Létendue Lintervalle de variation ou Uétendue est la différence entre Xq la plus grande et x; Ia plus petite des valeurs observées de la variable : E= x » = xi L’intervalle de variation d’une série est la maniére la plus simpliste de mesurer la dispersion, car ¢*est la différence entre les deux valeurs extrémes. Son calcul est extrémement rapide, ce qui fait qu’on l'utilise fréquemment (surtout dans le contréle de fabrication industrielle). ‘On dira par exemple que les notes de devoir varient de 6 a 19/20, Supposons que l’age des étudiants de 1** année Sociologie varie entre 17 et 27ans, I’étendue de cette série sera de 27 - 17 =10 ; si pendant cette méme année un retraité de 77 ans venait s"inscrire I’étendue deviendrait 77 -17=60. 11.2.2. Variance, Ecart type, Coefficient de variation. > Variance La variance encore appelé moment centré d’ordre deux est définie par : VX) =2¥ nO, -¥P=02 avec n=ntn,+--+n, > Ecart type 100 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023 L’écart type © (ou I’écart quadratique moyen) est la moyenne quadratique (ou moyenne d’ordre 2) des écarts a a moyenne arithmétique, il est défini par: ¢, = /V(X) = { Tenant compte de toutes les observations, il exprime convenablement la dispersion de la distribution méme trés dissymétrique. C’est la caractéristique de dispersion la moins sensible aux fluctuations d’échantillonnage. Sa signification n'apparait clairement que pour la comparaison de 2 distributions. Par exemple, dans une série l’écart type de distribution des notes de devoirs est de 1.5, et si dans une autre série il est de 4.51, on pourrait dire que dans celle-ci les notes sont 3 fois plus dispersées que dans la premiere. > Coefficient de variation L’écart type, comme la moyenne, s'exprime dans la méme unité que la variable statistique, Pour comparer 2 distributions qui ne sont pas exprimées dans la méme unité (distribution de revenus dans des pays différents par exemple), des distributions dont les moyennes sont notablement différentes, * on a recours au coefficient de variation qui est défini comme le rapport de I’écart type A la moyenne C’est une caractéristique de dispersion relative, nombre sans dimension et par conséquent indépendant des unités choisies. Il est souvent exprimé sous forme de pourcentage Par exemple, dans 2 entreprises E) et E2, pour la distribution des salaires, on trouve : ¥, = 128 cv1=128/1600 =0.08 = 8% 250 et o2=102.5 ev2=102.5/1250 =0.082 1600 et 2% La distribution relative des salaires est sensiblement la méme dans ces 2 entreprises. ‘ Supposons que I’on veuille comparet cette dispersion avec celle observée dans une entreprise américaine comparable dont la moyenne et I'écart type des salaires sont : ¥ = 8008 et «= 69S, donc Cv = 69/800 = 0.08625 = 8.625% ; la dispersion relative des salaires est du méme ordre de grandeur dans ces différentes entreprises, et légérement plus élevée dans I'entreprise américaine. Exemple de calcul de la variance et de Vécart type Partons des exemples précédents Notes xi [effvetifsnj]nixi ]x;- x [(x—x)? [ai(x— x)? 7 3 21 1936 [58,08 8 2 16 11,56 23,12 10 3 30 1,96 [5,88 12 3 36 [0.6 [036 [1,08 13 5 65 [16 2,56 12,80 14 2 28 (2.6 6,76 13,52 16 2 32_|4.6 21,16 42,32 Totaux [20 228 63.72 [1568 ¥=3ZB = 114 (moyenne arthmétique)¥ 84 (variance) ; WV =o =2,8(Ecarttype) 101 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023. Calcul de la moyenne et de I’éeart type : (Tableau 5) Taille Jeffeetifn Pri [u-7 |i.7)* |myn-z) > 135 [3 405 [-0.15 [0.0225 0.0675 1,45 15 21,75 |-0,05 |0,0025 0,0375 1,55 7 10,85_|0,05__|0,0025 0,0175 1,65 5 8,25 [0,15 |0,0225 01125 totaux [30 44,90 [0 [0.05 0,235 30 La taille moyenne est 7 = = 1,50. W La variance est 7 5 «0,078 et ’écart type est : ,088. 30 HIL3 Les caractéristiques de forme (du polygone de fréquence) L'asymétrie et l'aplatissement permettent de préciser I’allure de la courbe des fréquences sans avoir besoin de la tracer On retient généralement deux mesures de forme d’une série: = celle de l'asymétrie a pour objet de nous renseigner sur la fagon réguliére ou non dont les observations se répartissent de part et d’autre d'une valeur centrale ; - celle de l'aplatissement a pour objet de faire apparaitre si une faible variation de variable entraine ou non une forte variation des fréquences relatives Mesure de l'asymétrie Définition > Une distribution statistique est symétrique si les observations repérées par leurs fréquences sont également dispersées de part et d'autre d’une valeur centrale, On choisit généralement les 3 valeurs centrales suivantes pour repérer l'asymétrie ; le mode (Mo), la médiane (Me) , la moyenne arithmétique (M= ¥ ) Dans une distribution symétrique, les 3 caractéristiques Mo, Me et M sont confondues comme le monte la courbe suivante, 102 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023. Courbe symétrique. Lorsque que la distribution est asymétrique, la médiane eft généralement comprise entre le mode et la moyenne et plus proche de cette demniére. : La courbe non symétrigue est dite oblique : oblique se repére du edté de décroissance la plus forte de la courbe des fréquences Oblique a gauche (ou étalée a droite) : Mo Me > M Mo Me Courbe oblique @ gauche (ou étalemem a droite 103, Cours de Statistiques deseriptives — Dr MABIALA Jean Félix année académique 2022-2023. Courbe oblique d droite (ou étalement d gauche) Les coefficients d’asymétrie On utilise un certain nombre de coefficients, nombres sans dimension, permettant les comparaisons , sans avoir recours aux courbes qui accompagnent la distribution. Nous en retiendrons, ici, trois connus par les noms de leurs auteurs ; YULE, PEARSON, FISHER. 1) Le coefficient de YULE 11 propose une mesure de I’asymétric en comparant I’étalement vers la gauche et I’étalement vers la droite, tous deux repérés par la position des quartiles Q1, Me, Qs. (Q, ~ Me)~(Me-Q,) _ Q,; +Q,-2M, (Q, - Me) +(Me-Q,) Q,-9, Le coefficient d’asymétrie de YULE s*éerit : s= si s=0 esymétrie (les quartiles sont équidistants) si sO © oblique a gauche (ou étalement vers la droite) si s<0 < oblique a droite (ou étalement vers la gauche) 2) Les Coefficients de PEARSON Kart PEARSON propose deux coefficients. Le premier (s) analyse la position de deux valeurs centrales (le mode et la moyenne arithmétique relativisés par la dispersion de la série) M~—Mo o Sis=0 © symétrie Sis > 0.< oblique a gauche Sis <0 <> oblique & droite. Remarque: Ce coefficient n’est valable que pour des distributions de fréquence faiblement asymétriques et uni modales. s Le deuxiéme coefficient, B; est plus élaboré. I! s"appuie sur le calcul des moments centrés. Ceci est beaucoup plus fastidieux mais le résultat obtenu est plus intéressant surtout pour les séries possédant un grand nombre "observations. 104 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023. ig “ avec —Sa(x-*) = ne ne FY" (ua Si Bi =0 <> symétrie (de la distribution de fréquence autour d’un axe passant par ¥ ) Si Bi> 0 & oblique a gauche (plus étalé 4 droite qu’a gauche) I s*écrit : By 3) Coefficient de FISHER Sir Roland FISHER propose le coefficient yi qui n'est que la racine carrée du coefficient Bi de PEARSON 0 [B. 3 +/p-3 1744-3 On tire les mémes conclusions que pour B Si yi <0 € oblique & droite (plus étalé & gauche qu’a droite) Mesure de aplatissement Déinition : On considére qu’une courbe de fréquence soit plus ou moins aplatie, par référence a la courbe de fréquence (ou densité) de la normale (loi de GAUSS- LAPLACE). Ainsi une distribution est dite aplatie si une forte variation de la variable entraine une faible variation de la fréquence relative (fi) et inversement 1 2 3 4 5 6 7 @ Courbe normale 1.2 3 4 5 6 7 8 9 Courbe hypo normale 10S Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023, Courbe hypemormale Les coefficients daplatissement La logique est de comparer si la distribution est plus ou moins aplatie par rapport & la courbe de la loi normale de méme moyenne et de méme écart type. Le coefficient de PEARSON (Kurtosis) Ha Ha Aaa moe Ce coefficient est d 'autant plus faible que la courbe est hyponormale 2-3 pour une distribution normale (B2 croit avec Ia concentration des fréquences autour de la moyenne). 2- Le coefficient de FISHER 0 pour une distribution normale » > 0 pour une distribution leptocurtique ou hyper normale Y <0 la courbe des fréquences est platicurtique ou hypo normale. 11.3.1 Les caractéristiques de concentration La concentration est done une conséquence directe de la dispersion, ceci revét une grande importance cen économie (concentration des salaires, des revenus, de la taille des entreprises.) Cette caractéristique ne s"applique qu’aux variables statistiques continues & valeurs positives. On lui trouve de nombreuses applications dans la gestion de l'entreprise. 106 Cours de Statistiques deseriptives — Dr MABIALA Jean Félix— année académique 2022-2023, La médiale est une valeur particuligre du caractére telle que tous les caractéres supérieurs constituent lune moitié de la masse globale des caractéres, l'autre moitié étant constituée par tous les caractéres inférieurs. Elle partage done la série (nisi; x:) en deux sous-ensembles Egaux. On peut aussi dire que la médiale est la médiane que I’on calcule non plus sur les fréquences absolues ou relatives (niou f.) de la série mais sur le produit (mix jou fixi), xi étant le centre de classe. Détern is On calcule la médiane (Me) de la série ; On calcule la médiale (MI) de la série ; On mesure l’écart AM entre la médiale et la médiane ; On compare cet écart (AM) a |’intervalle de variation de la série (xx4 - Xm). Remarque : La médiale est supérieure & la médiane vue qu’on raisonne en masse dans le premier cas AM = Mle - Me Comparaison de AM 4 I'intervalle de variation : ~ Si AM est grand par rapport 4 |’intervalle de variation, la concentration est forte (dans I’exemple des revenus, cela signifierait qu'il y de grandes disparités de revenus entre les classes de revens). - Si AM est petit par rapport a |’intervalle de variation, la concentration est faible (dans I’exemple des revenus, cela signifierait qu’il n'y a pas de grandes disparités de revenus entre les classes de revenus). ~ Si AM est nul, la médiane est égale a la médiale, on se trouve dans une situation d’égalité parfaite ou d’équi-répartition, si les classes sont bien choisies. (Dans l’exemple des revenus tout individu a le méme revenu entre les différentes classes de revenus). Liindice de concentration de Gini (statisticien italien CORRADO GINI : 1912) et utilisée pour la dispersion de certaines distributions statistiques : distribution de salaires ou de revenus, distribution d’entreprises suivant leur taille (nombre de salariés, chiffres d’affaires). Exemple : Etudions la concentration de la distribution des allocations (en milliers de francs CFA) suivante: Ci_] 10-20 [20-30 [30-50 | 50-90 ni_| 20 40 30 10 HF: (Bi * Bit) ei Hr fit fos ffxi] ca [i0; 20f [0,2 for is} 313 | 0.094 [oo9a] 0 0.019 (20: 30f [0.4 |0.6 [2s [10] 13 | 0.406 [0,406 [0,094 0.200 (30: sor_[0.3 [0.9 40/12] 25 [0.781 [0,781 [0.406 0.356 [ts0: 90f lor [1 [7o[ 7 [32 [1,000 [1,000 [0,781 [ 0.178 total 1 32 0.753 La médiane est la valeur Me du caractére qui correspond 4 la fréquence cumulée 0,5 done elle sera telle que = 107 Cours de Stenistiques descriptives ~ Dr MABIALA Jean Félix— année académigue 20: 25,done M, =20+25x0,3=27,50 20 des écarts), Avec écarti = yi - 110 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023. Ces différences (écarts peuvent étre positives (écart e2), négative (écart er) ou nulle si les valeurs cobservées et théoriques sont confondues). Pour éliminer ce probléme de signe et faire en sorte que la sommation de ces écarts ne se traduise pas par une compensation quand ils sont de signes contraires, on les éléve au carré, ce qui les rend tous positifs. Nous chercherons done & minimiser J) (des carts)’. L’expression d’un écart queleonque peut yi-y'i; done la droite la plus représentative est celle pour laquelle la somme des écarts (e:¥ est minimale, d’oii le nom de méthodes des moindres carrés Min (iyi? Recherche des paramétres de la droite des moindres carrés. On démontre et nous admettons que la droite qui minimise les écarts passe par un point Ys -3o.-3) 1 =D, caractéristique, le point moyen de coordonnées ¥ e¢ Pet que sa pente a et son équation y— y= a(x-¥) x Jet youjaax+6 avecb=y—a Définition (On appelle covariance entre les variables les x et les y notée cov(x, y), le réel défini par lS. cov (xy) = Dale, KY, -¥) aoa g— Se) On appelle coefficient de corrélation défini par la droite de régression de y en x, le réel noté r et détini par cov oo, Exemple : Le tableau suivant donne |"évolution de la moyenne Y, d’un étudiant compte tenu de sa note de mathématiques durant quatre années d’étude. x Ty Ty? [xy 15 [13 [225 [169 [195 ii [12 [121 fiaa [132 16 [14 [256 [196 [224 18 [16 [324 [256 [288 total [60 [55 [926 [765 [839 Caleuls de base iret Cours de Statistiques descriptives ~ Dr MABIALA Jean Félix— année académique 2022-2023 r Baisas, Cov(x,7) = #2 1501375 =3; Pa, 4 very = "803957 =219;0,J8B =148 Coefficient de corrélation entre X et Y COMA) 3.5 35 Oxo, 255x148 3,774 ajustement linéaire est fondé. =0,93, il y a une forte corrélation entre X et Y done un Les coefficients de la droite de régression 5 CoUX.Y) _ 35 La pente :@ = SAAD) _ 35 VarX 65 D’ouil’équation cherehée : Etude de la Corrélation La corrélation simple mesure le degré de liaison existant entre deux phénoménes représentés par des variables. La corrélation multiple permet de déterminer le degré de liaison existant entre trois variables ou plus. La corrélation est linéaire lorsque tous les points du couple (x.y) des deux variables semblent alignés sur une droite, La corrélation non linéaire lorsque les couples de valeurs se trouvent sur une méme courbe d’allure queleonque La représentation graphique donne une impression visuelle de la corrélation entre deux variables sans donner une idée précise de I’intensité de cette liaison, C’est pourquoi, on calcule une statistique Covx.y) Oey appelée coefficient de corrélation linéaire simple notée ret défini par Exemple On s’intéresse a la liaison pouvant existée entre la moyenne générale (y / 20) et la note de Statistique (x / 20) des étudiants de la 1** année de géographie. On reléve 10 couples de données consignées dans le tableau suivant Tableau | moyenne générale y et moyenne x en Statistique | na 3a 0a 2320] Lx 12 116 14 15 10 16 14 15 10 9 1 Tracer le nuage de points puis commenter [Link] le coefficient de corrélation empirique simple IV. : Tableau de contingence en fréquences (Tri ¢roisé) La répartition des n observerions ou distribution conjointe suivant les modalités de X= (K, X2y Kip ws Nk) CUY= (Vis 25 ---Vjp -» Ys). $e présente sous forme de tableau & double entrée appelé tableau de contingence (en effectifs on en fréquences). Exemple Quatre vingt dix enfants d'un échantillon atteints de l'asthme et eczéma sont répartis de la maniére suivante 12 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023, Tableau? :Tableau d’effectifs d'une série statistiques & deux caractéres Asthme fort [moyen. [Igger | Total eczéma, (n= ai) [présent 3p mn) passé 7_{6 13 [26 [jamais 10 [1s [20 __|4s Total (nj=b) [20 [30 [40 [90 IciN=90 IV.2.1 Lois marginales, fréquences marginales et fréquences conditionnelles D'aprés le tableau d’effectifs du cas général, on obtient : Loi marginale de [Link] la colonne a droite du tableau Contre de classes [Xj [X2 X: Fréquences absolues | 1 a2 Ac Loi marginale de Yest la ligne en bas du tableau Centre de classes [Yi Ye Ti [ve Fréquences absolues [bi be ib B, Fréquenece marginale de X Centre de classes [Xi [XJ [Xi Xe Fréquences (fi) fi a fe Frégence marginale de ¥ Contre declasses [Xi [Xo [uuu [X Xe Fréquences (fi) [fi fi ai fr Fréquence conditionnelle de la variable X si ¥= yj est la colonne y, Centre de classes [Xi [Xa Xi jae [Xe Fréquences absolues [py [my |... [Dy Dy Fréquence conditionnelle de la variable ¥ si X= xi est la ligne xi. Centre de classes [Yi [Yo Yi seen |S Fréquences absolues [niu [no Ti . Ris Propriété trés importante: us Cours de Statistiques descriptives — Dr MABIALA Jean Félix année académique Si ¥ est indépendante de X, alors quels que soient i=1,..., ret +1, b Cette propriété caractéristique de Vindépendance est trés importante, car elle permet, a partir des distributions marginales en fréquences des variables X et Y, de reconstituer le tableau de contingence en effectif que l'on doit obtenir si 'on fait "hypothése que les variables X et Y sont indépendantes. Ce tableau reconstitué est appelé tableau de contingence théorique en effect Soit tj, leffectif théorique lorsque 'hypothése d'indépendance est réalisée, on a quelque soient i=1,...° 1, 2, xn, xb, N- N«N Les effectifs t sont appelés effectifs théoriques : Test du Khi-deux Pour mesurer la "distance" qui sépare le tableau théorique du tableau observe, on utilise l'indicateur nots 3 pyoa et appelé "Khi-deux 22 =0 si et seulement si X et Y sont indépendantes. Liindépendance des caractéres X et Y conduit ii formu Lthypothése : Hq « Les caractéres X et Y sont indépendants » Sous I’hypothése ( Hq ), on compare les distributions deffectifs observés et théoriques, La variable aléatoire 7 est une variable de Pearson a v= (L—1)(C—1) degré de liberté (ddl) (L=nombre de lignes et C = le nombre de colonnes du tableau de contingence). Pour v degrés de liberté, la table de 7° donne le nombre z; tel que P(y2> x3(a@) )=a etonconclut ainsi : Si 422 Z)(@) , om refuse U'hypothése (Ho) au seuil de signification, done les caractéres X et Y ne sont pas indépendants Si Z.*< 75(@), on ne peut refuser I'hypothése (Ho) au seuil de signification, a donc les caractéres X et Y sont indépendants ( le test ne fournit aucune exigence contre (Ho) ). Dans ce cas, il peut étre intéressant de rechercher le seuil minimum @,, pour refuser (H), puis raisonner sur la valeur de py Exemple Deux cent enfants d'un échantillon atteints de I’asthme et eczéma sont répartis de la manigre suivante Tableau 2 : tableau de contingence en effectifs (les valeurs observées sont en gras) EJA [Fort Moyen [Léger Total | 114 Cours de Statistiques descriptives — Dr MABIALA Jean Fille année académique 2022-2023. Présent 25 [5 5 35 12,775 15,575 6,65 Passé 30 30 10 70 25,55 _{31s 13,3, Jamais 18 34 3 95 34,675 42,275 18.05 Total B 89 [38 200 5— Ps > (5665) (30-2555) (30-3115? (10-133) 2e 12,775) 46 15,575) 6 6,65). (30. 25,55) 60 31,15) lo 133) “ TRIS 15.575 6.65 25,55 3115 133 (18-34,675) ‘ (54-42,275)' (23-18,05)° 34.675 42,275 18,05 = 11,699+ 7,180 + 0,409 + 0,7 7 = 33,552 v= (3-1)]3-1)=4 dégré de liberté (4)=949 (le sur la table du 72) Soit Ho-Vasthme et l'eczéma sont indépendants ; comme a dépendance de ces deux maladies et on rejette I’hypothese Ho. +0,042 + 0,819 +8,019+3,252+1,357 33,552 > z3,,(4)= 9,49, on conchut ANNEXE 1 : Quelques exercices d’application Exercice 1 Répondez aux affirmations suivantes par oui ou non, Reportez le numéro de la question suivi de la réponse oui ou non ~ Les modalités précisent un caractére statistique. - Une variable statistique est une modalité qualitative chiffrée. + Une variable discréte est un regroupement de valeurs en intervalles. - L’amplitude d’un intervalle est calculée pour une variable discréte. - Une distribution ne peut étre représentée sous la forme d’un polygone de fréquence. = Lamoyenne est une caractéristique de valeur centrale, ~ L’écart absolu mesure la dispersion autour d’une grandeur de valeur centrale. - Le coefficient de variation est un nombre sans unité. Exercice 2 Lrenquéte démographique et de santé Gabon 2000 (EDSG 2000) a donné la distribution des méres d'enfants de moins de cing selon le niveau d"instruction : ‘Niveau d instruction Secondaire Aucun___|Primaire _ | ou plus Ensemble fectifs des meres 152 1035 1376 2563 us Cours de Statistiques deseriptives — Dr MABIALA Jean Félix— année acudémique 21 Représenter cette distribution l'aide d’un graphique circulaire. Exercice 3 La population des quatre régions MAYEVILLE est donnée par le tableau suivant : Département | Population (en milliers) 1 5150 1710 it 420 uv. 440 Représenter cette distribution a l'aide de graphe circulaire puis commenter. Exercice 4 Etant donné les valeurs suivantes ¢ 12,4, 3, 8, 7, 2 calculer : la moyenne arithmétique, Exercice 5 Etant donné 5 valeurs suivantes : [2, 8, 17, 12, 3] dont les coefficients attribués respectits sont : [2, 3, 1, 3, 2]. calculer : la moyenne arithmétique pondérée Bxercice 6 Lors d'un recensement, on a obtenu les résultats partiels suivants : Nombre d'exploitations Agricoles Superficie 6 0-5 ha 24 5-10ha 8 10-20ha 2 120-50 ha Quelle est la surface de l’exploitation moyenne Exercice 7 ‘A partir du tableau ci-dessous, Département [Nombre d’habitants | Population ] pourune voiture | Département | (enmilliers) I 5 [5.150 I 15 1.710 Mr 7 [420 IV 8 440 Caleuler le nombre de voitures qu’il faut par département. 116 Cours de Statistiques descriptives — Dr MABIALA Jean Féli année académique Calculer le nombre moyen d’habitants par voiture automobile dans l'ensemble de la région constituée ‘par les quatre départements. Exercice 8 Déterminer le mode et la médiane des séries suivantes : 49, 8, 5, 5, 2,3, 5, 6, 1, 6} ; {10, 8, 11, 12,4, 5, 6, 7, 4, 6, 8} Exercices 9 Etant donné la distribution statistique s 0a 10 10 4 20 20 430 30440 total Déterminer trois caractéristiques de valeurs centrales Exercices 1) Etant donné la distri statistique suivante Classes | Fréquences oa 5 8 5a 10 6 10430 10 3050 6 total | 30 Tracer l'histogramme et fe polygone des fréquences Calculer la moyenne M puis déterminer le mode Mu et la médiane Me. Exercice i! Etant donné la distribution statistique suivante Classe Fréquences Moins de 25 25 Amoins 35 35 4 moins 45 45 a moins 55 55 a moins 65 65 Amoins 75 ‘75 & moins 85 85 A moins 95 95 et plus total Tracer 'histogramme et le polygone des fréquences ; Calculer la moyenne M, le mode Mo et la médiane Me ; Exercice 12 Les observations sur le nombre de familles de x enfants sont données dans le tableau ci-dessous : KH Renas8eUe 117 Cours de Statistiques descriptives — Dr MABIALA Jean Félix—année académigue 20: x 0 1 2 3 4 5 6 7 0 1995 | 3245 | igo1 | 654 298) 94 36 12 X : nombre d’enfants ; nombre de familles. 1+ Quel est le caractére étudié ? 2+ Xest-elle une variable statistique ? Quelle est sa nature ? 3- Calculer les fréquences relatives de cette variable. Exercice 13 Les primes regues par les exploitations d'une région (UM/ha) sont données dans le tableau suivant x___| Moins de 1500 | 1500-2000 [2000-2500 [2500-3000 [3000et plus | ni 210 120 502 180 62 | X : montant des primes ; nj : nombre d’exploitations, 1 Déterminer le mode (préciser I’intervalle modal). 2- Déterminer la moyenne puis médiane de cette distribution. Exercice 14 Une facture porte sur 150 articles différents et tous ont des prix de vente unitaires différents. On en tire le tableau suivant Prix de vente | Nombre Unitaire articles (francs) 15-60. 22 60- 100 65, 100- 200 38 200-530, 25 Total 150 ) Calculer le prix de vente médian, le prix de vente moyen de l'article et le prix de vente le plus frequent, b) Calculer I’écart type de cette distribution. Exercice 15 On donne la distribution des allocations (milliers de franes) de la société Ango et fils dans le tableau suivant : Classes | Fréquences fi Moinsde 30) 0,15 30—40 0.19) 40-50. 0.13 50-70 0.20 118 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023, 70-100 0.18 100et plus | 0,1 Déterminer les quartiles, le mode et la moyenne arithmétique de cette distribution. Exercice 16 Dans une bibliothéque, l'ensemble des abonnés a été réparti suivant le nombre d’ouvrages empruntés durant ce mois : Xi 03 [3-5 58 8-10 10-12 Di 18 139) 57. ic 22 1- Calculer la médiane, la moyenne et le mode de cette série puis conclure. Exercice 17 On donne la distribution suivante : Classes | Fréquences fi ‘Moins de 50 O15 = 100 0.19) 100 - 200 0.13 200 - 400, 0.20 400-700 0.18 700 et plus 0,15 Déterminer, le mode et la moyenne arithmétique de cette distribution. Exercice 18 On a évalué les superficies des grandes exploitations agricoles d’une région en hectare. Les résultats sont les suivants 50, 57, 62,70, 60,56, 65,50, 64, 68, 62, 58, 63, 65, 45, 57, 56, 61, 60, 58, 62, 64, 64. 61, 65 63, 64, 61.56, 50. 49. 50, 60,48, 59, 63. 61, 55, 56, 64, 68, 53,50, 72, 72, 73, 64, 63.57, 57 1 Grouper les données en classes d’amplitude 5 unités de la fagon suivante : 45 a moins de 50, 50 a moins de 55. 2. Déterminer la distribution des fréquences cumulées croissantes. 3+ Quelle est la fréquence des exploitations dont la superficie est supérieure ou égale a 60? 4- Quelle est la fréquence des exploitations dont la superficie est inféricure 4 55? 5- Quelle est la fréquence des exploitations dont la superficie est comprise entre 53 et 67? Exercice 19 ‘On donne la distribution des superficies des grandes exploitations agricoles d’une région en hectare, Les résultats sont consignés dans le tableau suivant. c_| Effectifs (mi) 45-50 3 50-55 6 119 Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 202. 55-60 12 60-65 19) 65-70 6 70-75 4 total 30 Etudier la dispersion et la disparité des superficies le la distribution ci-dessus Exercice 20 Dans une bibliothéque, I’ensemble des abonnés a é1& réparti suivant le nombre d’ouvrages empruntés durant ce mois : ni 18 39 37, 64 [42 33 21 14 x 0 1 2 3 4 5 6 74 J Calculer les trois caractéristiques de valeurs centrales de cette série, puis conelure. Exercice 21 On considére la répartition des chefs d’exploitation par age et par taille de S.A.U (surface agricole utile) donnée par le tableau suivant : X : « age », Y : « surface » en hectares ie [Oxf | [10330f | [30:50[ | [S0s00f | Toial x [5 25, 10 12 9 ul [25 535] 20 14 16 30 (35:45, 40 18 33 39 [14555 30 60 70 150 [55:65] 120 70 80 120 Total Combien y at il de chefs d’exploitation ayant moins de 5S ans et l’exploitation fait plus de 30 hectares, de SAU. Reproduisez le tableau en le completent avec les effectifs marginaux. Donnez les lois marginales de X et de Y. Exercice 22 Le chef service d'une grande surface dispose des données ci-dessous, Pour différents produits le temps mis par un employé a installer les rayons en fonction du nombre d”articles ranger est donne dans le tableau suivant : Produit n°i x ¥ (Nombre d’articles) | (emps mis en mn et 1/10 de mn) 1 10 2: 2 I 20 3 3 40, 5.5 4 50 62. 5 70 79. 6 100 10.2 7 120 1B 120 Cours de Statistiques descriptives — Dr MABIALA Jean Félix — année académique 2022-2023, 8 150 154 Total 560 65.2 ‘On donne les résultats suivants : x? = 56400 ; 3, Ecrire I'équation de droite régression de Y en X puis tracez cette droite sur le méme graphique que le couple (Xi, Yi). Calculez le coefficient de détermination R? de la régression. En voyant ce graphique, une donnée, la seconde, semble anormale ; elle correspond a une présentation publicitaire qui a nécessité un temps plus important. Caleulez les estimations 4: ; 6 des paramétres a et b du modéle Yt= aXt + b, aprés I’exclusion du point aberrant Calculez le nouveau coefficient de détermination. Que pouvez-vous conclure ? Quelle est I"équation 4 utiliser pour faire de bonnes prévisions ? Exercice 23 Soit le modéle :C, =a Ri +b+Us; t= L...n, of C,, Ri désignent respectivement la consommation et le revenu disponible (en millier de francs) la période t : a et b sont les paramétres inconnus du modéle ; les U: sont les variables aléatoires indépendantes, suivant chacune une loi normale de moyenne zéro et d’écart type 6 ° Sachant que R = 1590,80 ; C= 1429,52 ; Cov(R,C) = 271738,5 ; 0°(C)= 6° (R) = 314098 Déterminer La qualité d'un de l’ajustement linéaire associé a cet échantillon puis conc La droite de régression C en R ; Pour un revenu disponible de 500,000F, quelle serait la part consacrée a la consommation ? 45581,5 et Exercice 24 Les 1000 femmes d’un échantillon sont réparties selon leur niveau d’éducation (NED) et leur appartenance une classe socio-économique (CSE) de la maniére suivante ; [ NED/ CSE | Aisée | Modeste [ Total Primaire | 70 | 266 | 336 Secondaire | 180 | 286 | 466 Supérieur | 154 [44 | 198 Total [404 | 596 [1000 Les deux caractéres « niveau d’éducation » et « categorie socio-économique » sont-ils indépendants ? BIBLIOGRAPHIE ALONZO Philippe, Initiation a la statistiques descriptive en Sciences sociales, Paris, Collection Guides, 2003, 216 p. ANDERSON. SWEENEY. WILLIAMS, Statistiques pour "économie et gestion, Nouveaux Horizons, de boeck, 2006 121 Cours de Statistiques deseriptives — Dr MABIALA Jean Féllx— année académigue 2022-2023. BAILLY Pierre ; CARRERE Christine, Statistiques Deseritpitves. Cours, Presse Universitaire de Grenoble, 2007, 131 P. BOURSIN J.L. et DURU G., Statistique Cours-Méthodes- Exercices, Vuibert,1995. CHAUVAT G, et REAU L-P., Statistiques descriptives, Exercices et corrigés, Armand Colin, 1996, GRAIS B. Méthodes statistiques, * édition Dunod, 1998. GAULTIER M., Statistique 100 exercices corrigés avec résumés de cours, Vuibert,1997. Support de cours de statistique, Licence 1 Sociologie: Joseph MOUTANDOU-MBOUMBA et Bertrand Dimitri NDOMBI-BOUNDZANGA ( année universitaire 2019-2020), Cours de Statistiques descriprives — Dr MABIALA Jean Féltx— année académique 2022-2023

Vous aimerez peut-être aussi