1
Université Cadi Ayyad Année : 2025/2026
Ecole Nationale des Sciences Appliquées Module : Analyse des données
Marrakech Resp. : I. Ouassou
Travaux dirigés d’Analyse des données : Série N 0 2
Exercice 1 On définit E = Rp (resp. F = Rn ) et on le munit de la métrique associée, sur la base
canonique, à une matrice notée M (resp. D), carrée d’ordre p (resp. n), symétrique et définie-positive.
Par ailleurs, on note H l’ensemble des matrices réelles d’ordre n × p (ou encore des applications
linéaires de E dans F ). On rappelle que H est un espace vectoriel réel de dimension np.
1. On considère l’application
H × H −→ R
φ :
(X, Y ) 7−→ < X, Y >M,D = trac(X T DY M ).
Montrer qu’il s’agit d’un produit scalaire sur H.
2. On pose M = Ip et D = In . Expliciter les quantités
< X, Y >M,D ; ∥X∥2M,D ; d2M,D (X, Y ).
3. Application : on considère n = 3, p = 2,
1 2 8 7
5 −3
X = 3 4 , Y = 6 5 , M =
−3 4
5 6 9 10
et D = diag(3, 2, 1). Calculer < X, Y >M,D .
Exercice 2 On ote par ρ(X, Y ), le coefficient de corrélation de couple (X, Y ).
1. Montrer que |ρ(X, Y )| ≤ 1.
2. On considère deux séries statistiques (xi ) et (yi ) de taille n.
Soient αi i et βi deux séries statistiques liées aux séries statistiques (xi ) et (yi ) par les relations
suivantes :
xi − c
∀i αi = avec d ̸= 0, c, d ∈ R
d
yi − e
∀i βi = avec f ̸= 0, e, f ∈ R
f
Montrer les propriétés suivantes :
1
(a) cov(α, β) = cov(x, y),
df
|df |
(b) ρ(α, β) = ρ(x, y) = ±ρ(x, y).
df
Exercice 3 On considère la matrice de données :
2 4
4 6
X= 6 8
8 10
2
1. Centrer et réduire les colonnes de X.
2. Calculer la matrice de variances-covariances V .
3. Diagonaliser V et interpréter les valeurs propres.
Exercice 4 Le tableau suivant présente les notes de 10 étudiants en mathématiques (X) et en
physique (Y ) :
X 10 12 14 8 15 11 9 13 7 16
Y 9 11 13 7 14 10 8 12 6 15
1. Calculer le coefficient de corrélation linéaire entre X et Y .
2. Déterminer la droite de régression de Y en X.
3. Estimer la note en physique d’un étudiant ayant 17 en mathématiques.
Exercice 5 Soit la matrice des données suivantes :
4 5
X= 6 7 .
8 0
1. Soient C1 et C2 les vecteurs colonnes de X. Centrer et normer les variables C1 et C2 .
2. Déterminer la matrice V des variances-covariances et la matrice Γ des corrélations.
3. Diagonaliser la matrice V . Chercher ses valeurs propres λi .
4. Déterminer les vecteurs propres µi associés aux valeurs propres λi .
Exercice 6 Le tableau suivant représente des âges de patients X et les pressions systoliques 1 Y de
9 malades.
L’âge X 56 42 72 36 63 47 55 49 38
Tension artérielle Y 147 125 160 118 149 128 150 145 115
1. Représenter le nuage de points M (xi ; yi ) dans le repère orthogonal ci-dessous.
2. Calculer la moyenne et l’écart-type de chacun des deux caractère X et Y .
3. Placer le point G(X, Y ) dans le repère précédent.
4. Calculer la covariance et le coefficient de corrélation du couple (X, Y ). Que peut-on conclure ?
5. Trouver la droite de régression de X en Y .
6. Lorsque l’âge est 75 ans, quelle Tension artérielle Y peut-on prévoir ?
Exercice 7 On dispose pour un secteur industriel donné et sur une période de 8 années du nombre
de salariés Y (en milliers) et du chiffre d’affaires X (en dizaines de milliards) :
Année 1 2 3 4 5 6 7 8
X 3 4 5 6 8 9 11 13
Y 3.5 4.2 5 5.5 6 6.5 6.7 7.2
Z :=ln(X) 1,1 1,4 1,6 1,8 2,1 2,2 2,4 2,6
1. La pression systolique, par opposition à la pression diastolique, correspond à la pression artérielle mesurée lors
de la phase de la systole, c’est à dire lors de la contraction du coeur. C’est la pression la plus élevée mesurée lors de la
prise de la tension par le médecin. Elle doit être inférieure à 140 millimètres de mercure, sinon on parle d’hypertension
artérielle.
3
1. Représenter le nuage de points (xi , yi ).
2. Calculer la moyenne et l’écart-type de chacun des deux caractères X et Y .
3. Calculer la covariance du couple (X, Y ).
4. (a) Donner le coefficient de corrélation linéaire ρ(X, Y ) de la série statistique (xi , yi ). Un
ajustement affine est-il justifié ?
(b) Ecrire une équation de la droite de régression D de Y en X. Représenter D dans le repère
précédent
5. Calculer la moyenne et l’écart-type de variable Z.
6. Calculer la covariance du couple (Z, Y ).
7. (a) Donner le coefficient de corrélation linéaire ρ(Z, Y ) de la série statistique (zi , yi ). Un
ajustement affine est-il justifié ?
(b) Ecrire une équation de la droite de régression ∆ de Y en Z.
8. En l’an 2010, on prévoit pour le secteur étudié un chiffre d’affaires de 400 milliards.
(a) Utiliser les droites (D) : Y = aX + b et (∆) : Y = αZ + β pour proposer deux prévisions
du nombre d’employés de ce secteur à l’horizon 2010.
(b) Quelle prévision vous semble la plus appropriée
Exercice 8 Deux variables quantitatives X et Y ont été observées simultanément sur 12 individus
affectés des mêmes poids. Les résultats sont les suivants :
Individu 1 2 3 4 5 6 7 8 9 10 11 12
X 14 13 17 15 14 15 16 12 14 13 13 13
Y 13 11 16 15 12 13 15 10 14 12 13 12
1. (a) Définir l’espace des individus (on le munira de la métrique euclidienne classique).
(b) Représenter les 12 individus dans leur espace (on prendra pour intersection des axes le
point de coordonnées 10 et 9).
(c) Evaluer approximativement le signe et la valeur du coefficient de corrélation linéaire em-
pirique entre X et Y .
(d) Calculer R(X, Y ) et comparer.
2. (a) Définir l’espace des variables que l’on munira de la métrique appropriée.
(b) Dans cet espace, on appelle z et t les deux vecteurs représentant les variables centrées
associées à X et Y . Représenter z et t dans le plan qui les contient.
Exercice 9 On a observé, sur un échantillon de 10 individus, 2 variables quantitatives discrètes,
notées X et Y , ainsi qu’une variable qualitative, notée T , à 3 modalités. Les résultats sont les
suivants :
Individus 1 2 3 4 5 6 7 8 9 10
X 58 51 67 56 52 61 48 53 65 62
Y 119 121 110 114 124 105 127 116 107 111
T t1 t1 t1 t1 t1 t2 t2 t2 t3 t3
1. Déterminer moyenne et écart-type des 2 variables X et Y .
2. (a) Déterminer la covariance et le coefficient de corrélation linéaire entre X et Y .
(b) Déterminer les coefficients de la régression linéaire de Y sur X.
4
3. Déterminer la rapport de corrélation de X par rapport à T .
4. On décide de transformer la variable X en une variable qualitative continue comportant 2
classes : (47, 5 57, 5) et (57, 5 67, 5)
(a) Construire la table de contingence relative à X ainsi transformé et à T .
(b) Sur cette table, calculer les coefficients Phi-deux φ2 , Khi-deux χ2 , Tshuprow T et Cramer
C. q 2
On rappelle : Si D = i j n2ij /ni nj alors φ2 = D − 1, χ2 = n(D − 1), T = √−1φ√q−1 ,
P P
q
φ2
C = l−1 où l = inf(p, q) avec p nombre de lignes et q nombre de colonnes.
Exercice 10 Soit le modèle à trois variables explicatives :
yt = a0 + a1 x1t + a2 x2t + a3 x3t + et .
Nous disposons des données suivantes :
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14
y 12 14 10 16 14 19 21 19 21 16 19 21 25 21
x1 2 1 3 6 7 8 8 5 5 8 4 9 12 7
x2 45 43 43 47 42 21 32 33 41 38 32 31 35 29
x3 121 132 132 145 129 156 132 147 128 163 161 172 174 180
1. Mettre le modèle sous forme matricielle en spécifiant bien les dimensions de chacune des
matrices.
2. Etudier les paramètres du modèle.
2
3. Calculer R2 et R corrigé.
2 n−1
On rappelle : R = 1 − n−k−1 (1 − R2 ).
Exercice 11 Trois variables qualitatives, notées X, Y et Z, ont été observées simultanément ur un
échantillon de 10 individus. La variable X possède 2 modalités, notées x1 et x2 , Y en possède 3,
notées y1 , y2 et y3 , enfin Z en possède 4, notées z1 , z2 , z3 et z4 . Le tableau des données brutes est
fourni ci-dessous.
Individus 1 2 3 4 5 6 7 8 9 10
X x1 x1 x1 x1 x2 x2 x2 x2 x2 x2
Y y1 y2 y2 y3 y1 y2 y3 y3 y3 y3
Z z2 z2 z3 z4 z2 z1 z1 z1 z1 z4
Construire le tableau disjonctif complet associé à ces données, avec ses marges.
Exercice 12 (Agriculture dans la région de Marrakech) On étudie la relation entre la super-
ficie cultivée (en hectares) et la production d’olives (en tonnes) dans 8 communes de la région :
Commune A B C D E F G H
Superficie (X) 120 85 150 95 180 130 110 160
Production (Y) 360 255 450 285 540 390 330 480
1. Montrer que Y = 3X. Quelle est la conséquence sur le coefficient de corrélation ?
2. Calculer la matrice de variances-covariances.
5
3. Centrer et réduire les variables.
4. Calculer la matrice de corrélation.
5. Quelle serait la production prévue pour une superficie de 200 hectares ?
Exercice 13 Dans un clinique de maternité à Marrakech, on a mesuré les poids et les tailles des 10
premiers nouveaux nés d’une journée donnée. On a consigné ces données dans le tableau suivant :
Le ième nouveau né 1 2 3 4 5 6 7 8 9 10
Taille Xi en cm 50 52 47 49 50 55 54 51 45 49
Poids Yi en Kg 3,100 3,230 2,950 3,050 3,100 3,350 3,480 3,250 3 3,150
1. Quelle variable devrait-on identifier variable dépendante et laquelle devrait-on identifier va-
riable explicative ?
2. Définir l’espace des variables (on le munira de la métrique euclidienne classique).
3. Donner le tableau de contingence des effectifs du couple de variables (X, Y )
4. Représenter le nuage de points M (xi ; yi ) dans un repère orthogonal et commenter ce graphique
(est ce que le nuage de points suggère à une forme de liaison particulière ?).
5. Calculer les moyennes des deux variables statistiques X et Y .
6. Calculer la variance et l’écart-type de chaque caractère statistique X et Y .
7. Calculer le chi-deux χ2 observé, conclure ?
8. Montrer que le coefficient de corrélation : |ρ(X, Y )| ≤ 1.
9. Déterminer le coefficient de corrélation linéaire ρ(X, Y ). Y-a-t-il une corrélation entre les
deux caractéres ?
10. Placer le point G(X, Y ) dans le repère précédent.
11. Calculez les coefficients â et b̂ de la droite des moindres carrés.
12. Déterminer la droite de régression de Y en X expliquant le poids d’un nouveau né en fonction
de sa taille.
13. Calculer le coefficient de détermination R2 et interpréter le résultat.
14. Après une nouvelle naissance, on a mesuré la taille d’un nouveau né et obtenu 53 cm. Quel
poids peut-on s’attendre à mesurer pour ce nouveau né ?
15. Quelles est l’interpretation et la synthèse des résultats obtenues ?