Méthodes d'analyse des données discrètes
Méthodes d'analyse des données discrètes
Fadoua BADAOUI
27 décembre 2024
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 1 / 191
Overview
1 Introduction et rappel
La loi multinomiale
5 Modèles log-linéaires
Modèles à 2 variables
etc.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 3 / 191
Introduction et rappel
pratique,
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 4 / 191
Introduction et rappel
porte l'étude dans le cadre de laquelle les données ont été recueillies.
recueillies. Si des mesures ont été prises pour tous les individus de la
caractéristique.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 6 / 191
Échantillonnage
inférence statistique .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 7 / 191
variable numérique
Une variable discrète ne peut prendre qu'un nombre ni de valeurs (le
Une variable numérique est dite continue si elle peut prendre comme
valeurs tous les points d'un intervalle de nombres réels (Des variables
continues)
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 8 / 191
Remarque
suite.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 9 / 191
Remarque
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 10 / 191
Représentation d'une caractéristique
Il y a d'un côté la réalité et de l'autre côté la façon choisie pour mesurer cette
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 11 / 191
Exemple : variable pour représenter l'âge
L'âge d'une personne est naturellement représenté par une variable numé-
variable est catégorisée. Ainsi, l'individu qui répond au sondage doit sélec-
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 12 / 191
Type de traitement statistique d'une variable
Il arrive souvent que des variables observées soient transformées an de les
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 13 / 191
Variable dérivée pour le traitement statistique
fait quant à la méthode statistique qui sera employée. Cette méthode peut
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 14 / 191
généralités
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 15 / 191
Caractéristique de ces outils
recherche dans une situation donnée, il faut considérer les points suivants :
que ces deux variables. C'est ce qu'on fait dans un tableau de fréquences à
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 16 / 191
Type des variables impliquées
Certaines mesures associées à ces tableaux sont cependant propres aux va-
réponse est choisie en fonction du type de cette variable. Les variables expli-
catives peuvent quant à elles être aussi bien numériques que catégoriques.
Direction de la relation
relation entre les variables, donc ils ne supposent aucune causalité. C'est le
cas des tableaux de fréquences. Toutes les variables ont le même intérêt dans
variable explicative.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 17 / 191
Comparaison avec d'autres outils statistiques
Les outils présentés dans ce cours ne sont certes pas les seuls à pouvoir
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 18 / 191
Figure Comparaison des méthodes.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 19 / 191
Expérience avec la loi Poisson
suivants :
Québec ;
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 20 / 191
Expérience avec la loi Poisson
λy exp −λ
P(Y = y ) = y! y = 0, 1, 2, . . .
E [Y ] = Var [Y ] = λ.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 21 / 191
Expérience avec la loi Binomiale
échec.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 22 / 191
Expérience avec la loi Binomiale
En résumé, les conditions pour qu'il y ait une expérience binomiale sont les
suivantes :
n essais ;
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 23 / 191
Expérience avec la loi Binomiale
Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui
personnes ont répondu oui à cette question, et 636 personnes ont répondu
non.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 24 / 191
Expérience avec la loi Binomiale
Ici, les 4 conditions d'une expérience avec la loi binomiale sont respectées :
aléatoire simple.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 25 / 191
Expérience avec la loi Binomiale
E [S] = nπ
np(1 − p) ≤ 10, alors la loi Bin(n; π) tend vers la loi Poisson (nπ = λ).
En d'autres mots,
λs exp −λ
lim P(S = s) = s!
n → +∞, π → 0
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 27 / 191
Expérience avec la loi Binomiale
Notez que l'on peut approximer la loi binomiale par la loi normale lorsque n
est grand en utilisant le résultat du Théorème Limite Central.
asympt
S −−−−→ N(nπ; nπ(1 − π))
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 28 / 191
Méthode du maximum de vraisemblance
Etant donné un échantillon issu d'une loi dont la pdf est f (x, θ), on appelle
Qn
L(x1 , . . . , xn , θ) = i=1 f (xi ; θ).
Exemple
rapport à θ, la quantité
n
θxi (1 − θ)1−xi
Y
L(x , θ) = P{(X1 , . . . , Xn ) = (x1 , . . . , xn )} =
i=1 (1)
= θnx (1 − θ)n(1−x)
où x = (x1 , . . . , xn ).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 30 / 191
Exemple (suite)
dL(x , θ)
L′ (x , θ) = = nxθnx−1 (1 − θ)n(1−x) − n(1 − x)θnx (1 − θ)n(1−x)−1 .
dθ
En posant L′ (x , θ) = 0 on obtient
nx n(1 − x)
θnx (1 − θ)n(1−x) − = 0,
θ 1−θ
nx n(1 − x)
− = 0,
θ 1−θ
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 31 / 191
Tests d'hypothèses
Dénition
Soit θ∈Θ un paramètre d'une loi de probabilité et Θ0 et Θ1 deux
élaborer une règle de décision permettant de faire un choix entre les deux
hypothèses statistiques H0 et H1 .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 32 / 191
introduction
complémentaires.
Dénition
Les hypothèses H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 , où Θ0 et Θ1 sont deux
Lorsque Θi est réduit à un seul élément, on dit que Hi est une hypothèse
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 33 / 191
Caractéristiques des tests d'hypothèses
On utilise parfois les adjectifs suivants pour décrire les tests d'hypothèses :
le test de bilatéral .
test, est vraie peu importe la taille de l'échantillon, le test peut être qualié
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 34 / 191
Caractéristiques des tests d'hypothèses
doivent être vériées pour que le résultat d'un test paramétrique soit able.
statistiques.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 35 / 191
Types de tests d'hypothèses
Voici quatre types de tests d'hypothèses usuels. Ces types sont dénis en
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 36 / 191
Types de tests d'hypothèses
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 37 / 191
Types de tests d'hypothèses
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 38 / 191
Types de tests d'hypothèses
formulées ainsi :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 39 / 191
Types de tests d'hypothèses
tester la présence d'un lien entre deux variables. Rappelons que le terme
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 40 / 191
introduction
Dénition
On appelle erreur de première espèce ou erreur de type 1 la décision de
de type 2.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 41 / 191
introduction
H0 vraie H0 fausse
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 42 / 191
introduction
Dénition
Les probabilités des erreurs de première et deuxième espèce sont notées
deuxième espèce.
La décision idéale est celle où ces deux risques seraient nuls, i.e.
Si (x1 , . . . , xn ) ∈
/R alors on décide de rejeter H1 et d'accepter H0 .
fonction test.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 44 / 191
Puissance de test
Dénition
On appelle puissance d'un test la probabilité de rejeter H0 alors qu'elle est
la même que celle utilisée pour l'intervalle de conance. En général pour les
lois discrètes il est dicile de trouver les valeurs critiques sur les tables des
lois d'où le fait d'utiliser l'approximation normale dans les enquêtes dont la
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 46 / 191
Tests asymptotiques usuels
paramètre :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 47 / 191
Test du rapport de vraisemblance
supθ∈Θ0 L(θ|x)
Λ= supθ∈Θ L(θ|x)
L(θb0 |x)
Λ=
L(θ|x)
b
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 48 / 191
Test du rapport de vraisemblance
suivante :
asympt
LR −−−−→ χ2d
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 49 / 191
Exemple :Opinion sur l'avortement.
Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui
personnes ont répondu oui à cette question, et 636 personnes ont répondu
non.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 50 / 191
Exemple :Opinion sur l'avortement.
choisie vers la gauche plutôt que vers la droite, car des sondages précédents
0 |S)
LR = −2 ln( L(π
π |S) )
L(b
où π
b est l'estimateur du maximum de vraisemblance de π. Ainsi :
C s π s (1−π )n−s
LR = −2 ln( Cns πb0s (1−bπ0)n−s ) = −2(s ln( ππb0 ) + (n − s) ln( 11−π 0
π ))
−b
n
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 52 / 191
La valeur observée de S est ici s = 587. La proportion d'Américains
son fonctionnement.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 53 / 191
Test de Wald
H0 : θ = θ 0 contre H1 : θ ̸= θ0
b 0 )2
(θ−θ
var (θ)
b
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 54 / 191
Test de Wald
de test est
θ−θ
b 0
Se(θ)
b
où Se(θ)
b est l'écart-type de l'estimateur du maximum de vraisemblance.
√ 1
Un estimateur raisonnable de cet écart-type est donné par , où In
In (MLE )
est l'information de Fisher du paramètre.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 55 / 191
Exemple (Suite) : opinion sur l'avortement.
b−π0 asympt
Zw = qπ −−−−→ N(0; 1)
b(1−π
π b)
n
zw = q 0.48−0.5 = −1.459625.
0.48(1−0.48)
1223
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 56 / 191
Exemple (Suite) : opinion sur l'avortement.
rejeter l'hypothèse selon laquelle les Américains sont divisés sur la question
de l'avortement.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 57 / 191
Test score
Les tests score (en anglais score tests), aussi appelés tests du
S(θ0 ) asympt
√ −−−−→ N(0, 1)
I (θ0 )
∂
où S(θ) = ∂θ ln L(θ|x) est la fonction score calculée au point θ = θ0 et
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 58 / 191
Exemple (Suite) : opinion sur l'avortement.
on a
∂
S(π) = ln L(π|x)
∂π
∂
= (ln(Cns ) + ln(π s ) + ln((1 − π)n−s )
∂π
(2)
s n−s
= −
π 1−π
s − nπ n(bπ − π)
= = b = ns
avec π
π(1 − π) π(1 − π)
Donc
b−π0 )
n(π
S(π0 ) asympt
√ = qπ0 (1−π0 ) −−−−→ N(0, 1)
n
I (π0 ) π0 (1−π0 )
ou encore
zw = q0.48−0.5 = −1.401144.
0.5(1−0.5)
1223
Les seuils observés dièrent un peu entre les tests score et de Wald,
le test score. Les seuils observés pour les 2 tests bilatéraux sont
pratiquement égaux.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 61 / 191
Chap 2 :Tables de contingence.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 62 / 191
À quoi servent ces outils statistiques ?
Les outils statistiques présentés dans ce cours permettent de répondre à une
Quel est le lien entre la couleur des cheveux et la couleur des yeux ?
Est-ce que le sexe d'une personne a une inuence sur son risque de
la caractéristique A et Y la caractéristique B.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 63 / 191
Tableau de fréquences univariées et loi multinomiale
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 64 / 191
La loi multinomiale
Valeur de Y
Y
m1 ...
Y
mj ...
Y
mr
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 65 / 191
La loi multinomiale
Une réalisation des variables aléatoires (N1 , . . . , Nr ) sera dans cette section
notée (n1 , . . . , nr ).
Pour chaque expérience, πj représente la probabilité d'obtenir le résultat
peut être supérieur à 2. On dit que le vecteur N = (N1 , . . . , Nr ) suit une loi
contraintes suivantes :
N1 + . . . + Nr = n et π1 + . . . + πr = 1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 66 / 191
La loi multinomiale
indépendantes. On note
N ∼ Multinomiale(n; π1 , . . . , πr ).
De façon marginale, on a
Nj ∼ Bin(n, πj )
avec le vecteur N = (N1 , N2 ) étant donné que la valeur d'une variable peut
Cas particulier:
r = 2, où n = n1 + n2 et π1 + π2 = 1
n!
P(N1 = n1 , N2 = n2 ) = π n1 π n2
n1 !n2 ! 1 2
n!
= π n1 (1 − π1 )n−n1
n1 !(n − n1 )! 1
N1 ∼ Bin(n; π1 ).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 68 / 191
La loi multinomiale
n! n1
P(N1 = n1 , . . . , Nr = nr ) = n1 !,...,nr ! π1 . . . πrnr
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 69 / 191
La loi multinomiale
n2 n!
Cnn1 Cn−n1
. . . Cnnrr = n1 !n2 !...nr !
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 70 / 191
La loi multinomiale
Ni 48 35 122 95
N = (N1 , N2 , N3 , N4 ) ∼ Multinomiale(300; π1 , π2 , π3 , π4 ).
n! n1 n2 n3 s4
P(N1 = n1 , N2 = n2 , N3 = n3 , N4 = n4 ) = n1 !n2 !n3 !n4 ! π1 π2 π3 π4
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 71 / 191
Regroupement
Ei
∗ clairs Foncés
Nj
∗ 83 217
∗
(N1 , N2 )
∗ ∼ M(300; π1∗ , π2∗ )
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 72 / 191
Regroupement
Cas général :
Soient E1 , . . . , E r et E1∗ , . . . , Es∗ deux systèmes complets de catégories.
Nj∗ = i∈Ij Ni
P
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 73 / 191
Moment de la loi multinomiale
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 74 / 191
Moment de la loi multinomiale
de (N1 = n1 , . . . , Ns = ns ), s < r ?.
Ps Pr ∗
Sr ∗
Pr
Notons i=1 ni ≤ n = i=1 ni , Es+1 = s+1 Ej , Ns+1 = j=s+1 Nj et
∗
P s
πs+ 1 =1− i=1 πi
∗ ∗
P(N1 = n1 , . . . , Ns = ns ) = P(N1 = n1 , . . . , Ns = ns , Ns+ 1 = ns+1 )
n! ∗
∗ ns+
= ∗ π1n1 . . . πsns πs+1
1
n1 ! . . . ns !ns+1 !
∗ ) ∼ M(n, π , . . . , π , π ∗ )
(N1 , . . . , Ns , Ns+1 1 s s+1
∗ )
(N1 , . . . , Ns ) ∼ M(n, π1 , . . . , πs , πs+1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 75 / 191
Moment de la loi multinomiale
P(N1 = n1 , . . . , Nr = nr )
P(B/A) =
P(N1 = n1 , . . . , Ns = ns )
n! n1 ns ns+1 nr
n1 !...ns !...nr ! π1 . . . πs πs+1 . . . πr
= n! n1 ns ∗ ns+1 +...+nr
∗ ! π1 . . . πs (πs+1 )
n1 !...ns !ns+ 1
∗ ! r
ns+ 1
Y πj
= ( ∗ )nj
ns+1 ! . . . nr ! π
j=s+1 s+1
∗
Ps ∗
Ps
avec ns+ 1 =n− i=1 ni et πs+ 1 =1− i=1 πi
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 76 / 191
Moment de la loi multinomiale
Corollaire :
j π
2 Pour i ̸= j , la distribution de (Nj /Ni = ni ) ∼ B(n − ni , 1−π i
)
∗
Ps ∗
Ps
avec ns+ 1 =n− i=1 ni et πs+ 1 =1− i=1 πi
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 77 / 191
Moment de la loi multinomiale
πj
Cov (Ni , Nj ) = Cov (Ni , E (Nj /Ni )) = Cov (Ni , (n − Ni ) )
1 − πi
πj πj
= Cov (Ni , (n − Ni )) = − Var (Ni )
1 − πi 1 − πi
πj
=− nπi (1 − πi ) = −nπi πj
1 − πi
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 78 / 191
Moment de la loi multinomiale
Proposition :
nπi (1 − πi ) pour i = j
Cov (Ni , Nj ) =
-nπ π pour i ̸= j
i j
P
Cov (Ni , Nj ) < 0 car Nj = n − Ni − l̸=(i,j) Nl lorsque Ni ↗ alors Nj ↘
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 79 / 191
Relation de la loi multinomiale avec la loi de poisson
Thèorème :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 80 / 191
(mi )ni exp(−ni )
Démonstration : P(Ni = ni ) =
Pr
ni ! avec N= i=1 Ni ,
Pr
N ∼ P(m) et m= i=1 mi
r
X n! Y
P(Y1 = y1 , . . . , Yr = yr / Yi = n) = Qr (πi )ni
i=1 ni ! i=1
mi
avec πi = m . Il s'agit de la distribution multinomiale (n, π) .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 82 / 191
Test d'hypothèses sur la valeur de π = (π1 , . . . , πr )
Il s'agit d'un test bilatéral multivarié. Nous allons tester ces hypothèses
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 83 / 191
Test de rapport de vraisemblance sur la valeur de π
n! n1
L(π|N) = n1 !...nr ! π1 . . . πrnr
n! Pr
ln(L(π|N)) = ln( n1 !...nr!
)+ j=1 nj ln(πj )
Dans le contexte d'un test sur les paramètres d'une loi multinomiale,
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 85 / 191
Démonstration : On peut justier ce résultat de façon simple en considérant
qu'une loi binomiale peut être approximée par une loi Poisson sous certaines
multinomiale.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 86 / 191
Exemple :
résultats d'un sondage sur les intentions de vote des Québécois. Les trois
Tester si les votes sont vraiment répartis uniformément entre les partis
politiques :
non-rejet de H0 .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 88 / 191
Exemple (Suite)
suivante :
(264−(766/3)) 238−(766/3)
Uobs = 2 × 766/3 + 766/3 = 1.765
Les deux tests nous mènent donc à la conclusion que les votes sont
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 89 / 191
Chap 3 : Tableaux de fréquences à deux variables
Pour étudier le lien entre deux variables, il est bon de procéder en suivant
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 90 / 191
Dénitions et outils descriptifs
Le contexte traité dans ce chapitre est celui où l'on étudie deux variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 91 / 191
Exemple d'emplacement de variables
Si une des deux variables inuence l'autre ici, c'est certainement le sexe qui
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 92 / 191
Fréquences croisées
la valeur de Y est mYj simultanément. Les nij sont ce que l'on appelle les
PI PJ
fréquences croisées. On a toujours la relation suivante : n= i=1 j=1 nij
fréquences marginales.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 93 / 191
Fréquences conditionnelles
Les fréquences des modalités d'une variable en xant l'autre variable à une
rapport au fait d'être une femme sont (n11 = 279; n12 = 73; n13 = 225),
soit la première ligne du tableau de fréquences croisées.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 94 / 191
Fréquences relatives
Les fréquences relatives croisées sont dénies par fij = nij /n pour
horizontale.
dénies par fi|j = nij /n.j pour une valeur de j xe. De façon similaire,
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 95 / 191
Exemple de fréquences relatives :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 96 / 191
Exemple de fréquences relatives :
suivantes :
La fréquence relative f1|i=1 nous dit, par exemple, que 48.35% des femmes
divisant les fréquences croisées par les fréquences dans la marge verticale.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 98 / 191
Probabilités d'intérêt
Probabilités conjointes :
Probabilités marginaless :
Probabilités conditionnelles :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 99 / 191
Estimation des probabilités d'intérêt
nij
π
bij = n
Probabilités marginales :
ni. n.j
π
bi. = n ; π
b.j = n
Probabilités conditionnelles :
nij nij
π
bi|j = n. j ; π
bj|i = ni .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 100 / 191
Tests d'association entre deux variables nominales
donc associées.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 101 / 191
Test d'indépendance et test d'homogénéité
pas xés d'avance. Seul le total n est xé ici. On veut tester si X et Y sont
indépendantes.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 102 / 191
Exemple
Lors d'une étude, 32574 femmes enceintes ont été suivies pendant leur
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 103 / 191
Exemple
les variables.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 104 / 191
Test d'indépendance et test d'homogénéité
sous-population, c'est-à-dire que les totaux des rangées (les ni.) sont xes.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 105 / 191
Exemple
prennent pas. Pendant l'étude, tous les médecins devaient prendre une
pilule par jour sans savoir s'il s'agissait d'une aspirine ou d'un placebo. On
a observé si les participants ont été victimes ou non d'un infarctus pendant
l'étude.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 106 / 191
Exemple
variable explicative X.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 107 / 191
Dénition des concepts d'indépendance et d'homogénéité
indépendance ⇒ homogénéité :
PI
P(Y = mjY ) = i=1 P(Y = mjY |X = miX )P(X = miX )
Remarque :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 111 / 191
Formulation des hypothèses des tests
Test d'indépendance :
H0 : X et Y sont indépendants ou
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 112 / 191
Formulation des hypothèses des tests
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 113 / 191
Construction des statistiques de test
Pour eectuer ces tests, nous allons utiliser les statistiques LR et U. Ici, on
espérées sous l'hypothèse nulle H0 doivent être estimées et sont notées ebij .
PI PJ (nij −b eij )2
U= i=1 j=1 ebij
PI PJ n
LR = 2 i=1 j=1 nij ln( ebijij )
Rappelons que le nbre de ddl de cette khi-deux, notés d, sont dénis par :
Ici, on est dans le cas d'un échantillonnage multinomial simple, donc les
paramètres est égale IJ − 1. Les paramètres libres sous H0 sont les πi. et les
d = (IJ − 1) − (I + J − 2) = IJ − I − J + 1 = (I − 1)(J − 1)
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 115 / 191
Construction des statistiques de test
vaille 1. Sous H0 , tous les vecteurs (π1|i , . . . , πJ|i ) sont égaux aux
Test d'indépendance :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 117 / 191
Construction des statistiques de test
n.j ni n.j
ebij = ni π
b.j = ni ( n ) = n
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 118 / 191
Construction des statistiques de test
On notera les statistiques de test, peu importe que l'on mène un test
PI PJ n
LR = 2 i=1 j=1 nij ln( ni. n.jij /n )
χ2(I −1)(J−1) . Ainsi, au seuil α , H0 est rejetée si les valeurs observées de ces
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 119 / 191
Exemple de test d'association
ou encore,
et les femmes ?
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 120 / 191
Construction des statistiques de test
H0 : Les intentions de vote sont les mêmes pour les hommes et les femmes
P(χ22 ≥ 7) = 0, 03 ≤ 0.05
Conclusion : Nous rejetons H0 au seuil 5%. Il y a des diérences entre les
mathématiquement équivalents.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 123 / 191
Remarques :
Pupion, il est indiqué que le test est encore utilisable si les eectifs
ait moins de 20% des cellules pour lesquelles les eectifs théoriques
soient inférieurs à 5.
ci-après.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 124 / 191
Exemple de test d'association
nombre de frères et s÷urs (R) qu'il y a dans la famille. Peut-on dire que R
et S sont indépendantes ?
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 125 / 191
Cas particulier des tableaux 2 × 2
car (I − 1) × (J − 1) = 1 × 1 = 1.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 126 / 191
Exemple de test d'association pour un tableau 2 × 2 :
−→ Est-ce que le risque d'infarctus dière entre ceux qui ont pris
quotidiennement de l'aspirine et ceux qui n'en ont pas pris ?
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 127 / 191
Exemple de test d'association pour un tableau 2 × 2 :
22071(239×10898−10795×139)2
Uobs = 11034×11037×378×21693 = 26.9437.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 128 / 191
Comparaisons de deux proportions :
π
Ω=
1−π
πi
Considérons les tables 2x2. Pour la ligne i, la côte est Ωi = 1−πi .
Le rapport des côtes est déni par :
π1
Ω1 1−π1
θ= = π2
Ω2 1−π2
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 129 / 191
Comparaisons de deux proportions :
Dans le cas de distribution jointes pour (X, Y ), le rapport des côtes est
déni par :
π11
1−π12 π11 π22
θ= π21 =
1−π22 π12 π21
Pour une table de contingence contenant des fréquences, l'estimation de
l'odd-ratio est :
n11 n22
θb =
n12 n21
.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 130 / 191
Exemple Aspirine et infarctus : Parmi les 11034 médecins prenant le
239
placebo, 239 ont eu un infarctus, soit une proportion de
11034 = 0.022.
Parmi ceux prenant de l'aspirine, la proportion est de 139/11037 = 0.012.
La diérence des proportions est de 0.022 − 0.012 = 0.01, et le risque
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 131 / 191
L'Odds Ratio comme mesure d'association : L'OR s'interprète comme
force de l'association.
1 − π2
oddsratio = relativerisks( )
1 − π1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 132 / 191
Propriétés du rapport de côtes :
1 que pour la ligne 2. Cela ne veut pas dire que π1 = 4π2 , qui
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 133 / 191
Test de comparaison de deux proportions
H0 : π1|i=1 = π1|i=2 .
Avec π
b1 = n11 /n1 et π
b2 = n21 /n2 .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 134 / 191
Test de Wald de comparaison de deux proportions
b1 −b
π π2 asympt
Zw = r −−−−→ N(0, 1)
b1 (1−π
π b (1−π
b1 ) π b )
n1
+ 2 n 2
2
où π
bi = ni 1 /ni pour i = 1, 2.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 135 / 191
Exemple de test de Wald
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 136 / 191
Exemple de test de Wald
0.02166−0.01259
Zw = q
0.02166(1−0.02166) 0.01259(1−0.01259)
= 5.193717.
11304
+ 11307
Cette valeur est beaucoup plus grande que la valeur critique du test :
z0.05 = 1.645. On peut donc encore conclure que l'aspirine réduit les
risques d'infarctus.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 137 / 191
Test score de comparaison de deux proportions
b1 −b
π π2 asympt
Zs = q
1 1
−−−−→ N(0, 1)
πb(1−bπ )( n + n )
1 2
n1 π
b1 +n2 π
b2 n11 +n21
où π
bi = ni 1 /ni pour i = 1, 2 et π= n1 +n2 = n1 +n2 est utilisé pour
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 138 / 191
Exemple de test score
Zs = q 0.02166−0.01259 = 5.190729
1 1
b(1−b
π π )( 11304 + 11307 )
11304×0.02166+11307×0.01259 378
car π
b= 11304+11307 = 22071 = 0.01712655.
La valeur observée de la statistique du test score zs = 5.190729 est très
proche, mais pas tout à fait égale à celle de la statistique du test de Wald
2
(zs = 5.1907292 = 26.94367 = Uobs
2 ).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 139 / 191
Petits échantillons : test de Fisher
Tous les tests vus jusqu'à maintenant pour un tableau de fréquences à deux
de test sont donc valides à la condition que n (ou encore les ni ou les nj )
soit assez grand. Dans le cas de petits échantillons, voici les solutions qui
s'orent à nous.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 140 / 191
Correction de Yates :
supérieures à 3.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 141 / 191
Correction de Yates : pour la continuité de la statistique de
Pearson
PI PJ eij |−0.5)2
(|nij −b
U= i=1 j=1 ebij
ni. n.j
où |.| représente la valeur absolue et ebij = n .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 142 / 191
Correction de Yates : tableau 2 × 2
Tout comme c'était le cas pour χ2 , sous H0 (indépendance entre les deux
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 143 / 191
Remarques :
test exact de Fisher lorsque l'eectif total n est inférieur ou égal à 40.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 144 / 191
Test exact de Fisher pour un tableau 2 × 2
fréquences des deux marges sont xes, on peut trouver la loi exacte de n11
sous l'hypothèse d'indépendance entre X et Y . Il s'agit d'une distribution
hypergéométrique.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 145 / 191
contexte de la loi hypergéométrique : Notons que l'expérience qui permet
(tirer une boule blanche) est toujours la même. Cependant, si les tirages
Puisque les balles ne sont pas remises dans l'urne après chaque tirage, la
probabilité d'obtenir une boule blanche à un tirage est plus faible si tous les
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 146 / 191
Exemple : Loi hypergéométrique
test de Fisher) est n11 , soit le nombre de boules blanches parmi les boules
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 148 / 191
Test exact de Fisher
n −w
Cnw1. Cn2.1.
P(n11 = w |H0 , n.1 , n1. et n) = n
Cn .1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 149 / 191
Test exacte de Fisher (Logique et Procédure) : Soit une table de
0 a b a+b
1 c d c+d
hypergéométrique
a Cc
Ca+b c+d (a+b)!(c+d)!(a+c)!(b+d)!
Cna+c
= a!b!c!d!n!
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 150 / 191
Test exacte de Fisher
X Y Total
Z 2 7 9
T 8 2 10
Total 10 9 19
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 151 / 191
La probabilité unilatérale sera la somme des probabilités des arrangements
suivants
égale à α.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 152 / 191
Exemple
Exemple :Test exact de Fisher On présente à un expert en huiles, 10
bouteilles d'huile dans un ordre aléatoire dont 4 bouteilles proviennent
de la région d'Ouazzane et 6 de la région de Souss. Après dégustation il
doivent
XXX
identier l'origine de l'huile.
XXX Etiquette
XX XXX Ouazzane Souss Total
Origine réelle XXX
XX
X
Ouazzane 3 1 4
Souss 1 5 6
Total 4 6 10
On veut tester l'hypothèse de non association de l'identication donnée
par l'expert et l'origine de l'huile. △
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 153 / 191
Exemple :Test exact de Fisher
C43 C61
P(n11 = 3) = C104 = 0.114
4 0
C4 C6
P(n11 = 4) = C104 = 0.005
P(n11 ≥ 3) = P(n11 = 3) + P(n11 = 4) = 0.119 > 0.05
On ne rejette pas H0
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 154 / 191
Sensibilité, spécicité et matrice de confusion :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 155 / 191
Sensibilité et spécicité :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 156 / 191
Chap 4 : Tableaux de fréquences à trois variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 157 / 191
Tableaux de fréquences à trois variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 158 / 191
Tableaux de fréquences à trois variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 159 / 191
Exemple de tableaux de fréquences à trois variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 160 / 191
Exemple de tableaux de fréquences à trois variables
la valeur de Z.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 161 / 191
Deux critères X et Y sont indépendants ssi
1
X ⊥(Y , Z )
X ⊥Y ⊥Z ⇔
Y ⊥Z
2
X ⊥Y X ⊥Z
X ⊥(Y , Z ) ⇔ ⇔
X ⊥Z /Y X ⊥Y /Z
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 162 / 191
Test d'indépendance
eijk )2
∼ χ2ddl
PI PJ PK (nijk −b
U= i=1 j=1 k=1 ebijk
Hypothèses ebijk = nb
pijk ddl de χ2ddl
Ni.. N.j. N..k
X ⊥Y ⊥Z n2
IJK − I − J − K + 2
Ni.. N.jk
X ⊥(Y , Z ) n (I − 1)(Jk − 1)
Ni.k N.jk
(X ⊥Y )/Z N..k (I − 1)(J − 1)k
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 163 / 191
Exemple
Une enquête réalisée auprès de 105 étudiants sur les raisons d'échec selon 3
Q : manque de maturité.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 164 / 191
Exemple
pas des moyennes de variables qui sont prises en compte, mais des eectifs.
de signication, et la modélisation.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 166 / 191
Modèles log-linéaires
d'association.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 167 / 191
Modèles à 2 variables
xé.
La loi conjointe des eectifs nij de chaque cellule est une loi multinomiale
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 168 / 191
Modèles à 2 variables
eets :
µ, l'eet global ;
αi , l'eet dû à la variable X,
βj , l'eet dû à la variable Y,
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 169 / 191
Modèles à 2 variables
π
eij = nπij = nπi. π.j πi. πij .j
π
ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) + ln( πi. πij .j ) = µ + αi + βj + (αβ)ij
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 170 / 191
Modèles à 2 variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 171 / 191
Exemple
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 172 / 191
Le modèle saturé pour une table I × J
Ce modèle s'écrit :
ln(eij ) = µ + αi + βj + (αβ)ij
PI PJ
i=1 (αβ)ij = j=1 (αβ)ij =0
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 173 / 191
Exemple
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 174 / 191
Modèle à 2 critères non indépendants et tests d'ajustement
ln(eij ) = µ + αi + βj + (αβ)ij
PI PJ PI PJ
i=1 αi = j=1 βj = i=1 αβi. = j=1 αβ.j =0
H0 : X ⊥Y
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 175 / 191
Condition d'indépendance
Proposition :
ln(eij ) = µ + αi + βj + (αβ)ij
PI PJ PI PJ
i=1 αi = j=1 βj = i=1 αβi. = j=1 αβ.j =0
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 176 / 191
Modèle à 2 critères non indépendants et tests d'ajustement
ddl = IJ − 1 − (I − 1) − (J − 1) = (I − 1)(J − 1)
avec
n
LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij )
P P
(n −nb π )2
Uobs = Ii=1 Jj=1 ij nbπij ij
P P
Le non rejet de l'hypothèse nulle signie que le modèle retenu est le modèle
ln(eij ) = µ + αi + βj
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 177 / 191
Modèle à trois variables
ln(eijk ) = µ + αi + βj + γk + (βγ)jk
ln(eijk ) = µ + αi + βj + γk
modèle saturé.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 180 / 191
Modèles hiérarchiques
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 181 / 191
Modèles hiérarchiques
ln(eij ) = µ + αi + βj + (αβ)ij
ln(eij ) = µ + αi + βj
ln(eij ) = µ + αi + (αβ)ij
ln(eij ) = µ + βj + (αβ)ij
ln(eij ) = µ + (αβ)ij
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 182 / 191
Estimation des paramètres
cela, on suppose que les variables aléatoires nijk suivent une loi
multinomiale.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 183 / 191
Tests d'ajustement
n
LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij )
P P
(n −nb π )2
Uobs = Ii=1 Jj=1 ij nbπij ij
P P
Plus ces statistiques sont voisines de zéro, meilleur est l'ajustement. Elles
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 184 / 191
Qualité de l'ajustement
I X
J
2 nij
) ∼ χ2ddl
X
G =2 nij ln(
nb
πij
i=1 j=1
L'équation ci dessus est deux fois la diérence entre les maxima de la fct de
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 185 / 191
Qualité de l'ajustement
I X
J
bB
µ
G 2 (B/A) = 2 ) = G 2 (A) − G 2 (B)
ij
X
nij ln(
i=1 j=1
bA
µ ij
où bB
µ i etµ
bi A sont respectivement les valeurs ajustées par MA et MB .
Si la statistique de test G 2 (B/A) > χ2ddl(MB )−ddl(MA ),α , nous retenons le
variables est élevé. La méthode dite "combinatoire" est une des méthodes
variables.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 187 / 191
Choix du modèle
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 188 / 191
Sélection du modèle
AIC = G 2 − 2dll + 2N
Le modèle optimal est celui qui mènera à un bon compromis entre déviance
et ddl.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 189 / 191
Exemple
cellules.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 190 / 191
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 191 / 191