0% ont trouvé ce document utile (0 vote)
35 vues5 pages

Statistiques uni-variées et bivariées

Oui

Transféré par

sdritesse
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
35 vues5 pages

Statistiques uni-variées et bivariées

Oui

Transféré par

sdritesse
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

2023-2024

2 Bio A Unap l7 StatIStiques

Chap 17 : Statistiques

I: Statistiques uni-variées
(a) Sur une population de N individus, on relève un ou plusieurs caractères,
ex : Population : la classe de 2 Bio A, pour chaque élève on relève son prénom, son âge en mois, son niveau
global dans la classe (entre très faible, faible, moyen, bien, très bien), sa taille en cm, sa moyenne en maths au ler
(b) Certains caractères peuvent être qualitatif -> prénom, nive
ou quantitatif ->age, taille, moyenne en maths
Chaque caractère relevé sur la population représente une série statistique.
2. Pour un caractère quantitatif, on peut les ranger dans une liste
Gráce à l'informatique, on peut trier une telle liste (programme de tri par insertion ou de tri à bulles) par ordre
croissant.

(a) Paramètres de position


* moyenne :

Valeurs x; du caractères relevé individu par :—

ex l: moyenne pour un DS

Valeurs x; du caractère relevé avec un effectif n; dans l'échantillon => =n , um"=N.


ex 2 : on relève les températures à midi au mois de juillet à Paris.
x 20° 23° 24 25* 26 28° 29 31 33°
n 1 5 4 3 2 Calculer la moyenne ; A6
Tic

Rą :la moyenne est sensible aux valeurs extrèm


* médiane :
On classe les xi par ordre croissant, on calcule les effectifs cumulés, et même on peut s'aider avec les fréquen
cumulées

Pour , la fróqisnce est f - , la hréquaace camliss et fi =—


Défnition: me est le réel tel que 50% des individus de l'échantillon ont une valeur du caractère inférieure à
me, et 50% une valeur supérieure.
En pratique : Si N est grand, sur les fréquences cumulées fic, on repère x; tel que fic = 0,5, alors me= j.
: Si N est "petit", N = 2k +1 me = ; du kème individu.
N = 2k me = moyenne des x; du kème et du (k+1)ème individu.
Rq : dans ce cas la médiane n'est pas égale à une valeur du caractère
La miduane as
Déterminer la médiane dans l'exemple 2

Quartiles :Q,Q2, 0
Q1 = j tel que au moins 25% de la population a un caractère Q1
Q *=
Q = j tel que au moins 75% de la population a un caractère Q3.
ex : Déterminer Q et Q dans l'exemple 2
4 = °
°

Rą : On peut aussi définir les déciles. On va de 10% de la population en 10%. Sowvent on cherche Dy et Dy.
2 Bio A Unap I7 StatISt1ques

(b) Paramétres de dispersion

Formules :V(X) = N à w v-É f- - An


Par Koenig-Huygens on a aussi :V(X) = W -p É, N
Formule plus intere8sante pour la programmation car on n'accumule pas l'érreur d'approrimation vur a,
On en déduit l'écart-type :øx = yV(X).
tendue d'une série statistiqud olufienu de
C'est la différence max – min La donner pour ex 2:
Intervalle interquartile : |01, Qs). Le donner pour ex 2 : La4 *, 2 *
(c) Diagramme en boite = dingramme de Tuckey
Le tracer théoriquement :

représenter pour l'ex 2 :

II : Statistiques bivariées
On relève sur la population d'effectif N ou sur un échantillon de taille N 2 caractères :X et Y.
1. (a) Présentation des données
* Individu par individu : on obtient un couple (z1, ) pour chaque individu, l'effectif implicite est 1.
* Données groupées : on regroupe les couples (ai, ) identiques, on a donc un effectif n>1
(b) Séries marginales
Par exemple pour X on veut la série statistique . Alors pour chaque caractère x;, on calcule l'effectif margina
dire Ni,
i/ (xi, i)

On peut faire la méme chose pour la série Y.


(c) Représentation graphique de
On représente le nuage de point ( i, )
adre en compte dans la représentation l'effectif nj correspon
Le point moyen est G( ,

(d) Valeurs caractéristiques :

On définit la covariance des xiyi TX y (releve par naViau)

an an Y)= "na = 3 am (ni" = N (données groupées)

cov(X, Y)
Puis on peut défnir le coefficient de corrélation linéaire : px,Y == x y
2 Bio A
Chap 17 : Statistiques
ZU ZUZ

2 Ajustement linéaire par la méthode des moindres carrés


( ) On considère ls doanées relevées individu par insdividu, et on considire M(z ) pour ie |1; Nlle munge de
points (Attention : certains Mé peuvent étre confondus, mais ils comptent quand méeme plusieurs fois)
On cherche la droite A:y=ar+ qui passe "au plus prés" du nuage de points ( "au plus prls" au sens de la
distance verticale entre M; et A, élevée au carré)
(b) On cherche à minimiser
Sla, )=ŠMR
(ax4 +b– )

Recherche des points critiques de S(a, b) :

Théorème : On dit que A est la droite de régression linéaire de Y en X. (on a projeté M; sur A parallèlement à
(0, ))
:y—-== cov(X,Y( – )
R : Des données groupées peuvent toujours être exploitées séparément, donc le raisonnement précédent reste
valable et l'équation de

(c) Le problème est symétrique en projetant M; parallèlement à (0, x) pour obtenir le point Qi.
Donc il existe une droite ',droite de regres ion linéaire de X en Y.
':x– cou Xn(y–
y—– =—
co, jl * )

(d) Remarques :
* G( , ) est un point de A (et de A').
Les deux droites de régression linéaire se coupent au point moyen G.
Les 2 coefficients directeurs ont le même signe (celui de co (X, Y)), donc les deux o
monotonie (croissantes ou décroissantes).
zUZ -ZU24
10 A U ap 1I : tatIStIques

Puisque les deux droites ont déjà un point en commun, elle sont égales si elles ont le méme coetficient directeur.
Donc = ' .— co (X,Y). = *
o
cov(X,Y)
co (X, Y) =
k =1
lpx,y|=1donc X et Y sont liés par une relation affine ; celle de la droite!
* En pratique :
L'allure du nuage de points nous donne une indication sur la courbe que l'on peut tracer liant XàY (ce n
pas toujours une droite qui est la plus adaptée => voir exercice d'application du 4.)
Sinon, on calcule pX,Y Si løx,yl proche de 1 ( 0.8), on dit que les séries sont "bien corrélées", et la droite
de régression linéaire est adaptée.

* Si cov(X,Y) =0 ( cest le cas si X et Y sont indépendantes), alors la droite de regression linéaire de Yen X
donne : y= (droite horizontale)
et celle de X en Y:x= (droite verticale).

3, Exercices d'application
Exercice 1

Le tableau suivant donne pou


France; et y du produit intérieur brut français. Ces taux Sont exprimés en %.
Année 1 2 3 45 6 7 8
5,5 2,1 2,9|4,92,5 |3 3,5|2,3
y 5,3 | 2,9 0,44,7 3 3,3 3,8|2,2
(a) Quel est le coefficient de corrélation de x et y.
(b) 1Donner les équations droites de régression linéaire de y en x et de x en y.
2 B1U A
Unap lT : tacISt queS 2020-2U24)

Exercice 2

L'évolution du chifre
tableau suivant : d'affaire (en mil ions d'euros) d'une entreprise depuis sa création en l'an 2010 est donnée par le

Année 2012 2013 | 2014| 2015| 2016 | 2017 201s | 201


Chifre d'affaire |0,7 1,6 2 2,4 |2,5 |2,8 3
On note X la variable donnant l'année, et Y celle donnant le chiffre d'affaire.
(a) Représenter graphiquement le nuage de points correspondant.
(b)i. Calculer le coefficient de corrélation de X et Y.
ii. En déduire la droite d'ajustement linéaire de Y en X et la dessiner.
(c) On pose maintenant Z= exp(Y) =e
i. Calculer le coefficient de corrélation de X et Z et le comparer à pX,Y.
déduire une meilleure droite d'ajustement linéaire, puis un ajustement 10garIm
Rn

cette courbe,

(d) En déduire le chiffre d'affaire attendu en 2024.

Vous aimerez peut-être aussi