0% ont trouvé ce document utile (0 vote)
180 vues192 pages

Méthodes d'analyse des données discrètes

Ce document présente des méthodes statistiques pour l'analyse de données discrètes, en abordant des concepts tels que les tableaux de fréquences, les tests d'hypothèses et les modèles log-linéaires. Il explique également les types de variables et les traitements statistiques appropriés, ainsi que des exemples d'application des lois de Poisson et binomiale. L'objectif est de fournir des outils pour analyser correctement les données et interpréter les résultats obtenus.

Transféré par

6ynzh6c977
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
180 vues192 pages

Méthodes d'analyse des données discrètes

Ce document présente des méthodes statistiques pour l'analyse de données discrètes, en abordant des concepts tels que les tableaux de fréquences, les tests d'hypothèses et les modèles log-linéaires. Il explique également les types de variables et les traitements statistiques appropriés, ainsi que des exemples d'application des lois de Poisson et binomiale. L'objectif est de fournir des outils pour analyser correctement les données et interpréter les résultats obtenus.

Transféré par

6ynzh6c977
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse des données discrètes

Fadoua BADAOUI

27 décembre 2024

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 1 / 191
Overview
1 Introduction et rappel

2 Tableau de fréquences univariées et loi multinomiale

La loi multinomiale

Test d'hypothèses dans une table à une entrée

3 Tableaux de fréquences à deux variables

Tests d'association entre deux variables nominales

4 Tableaux de fréquences à trois variables

Type et test d'indépendances entre 3 variables

5 Modèles log-linéaires

Modèles à 2 variables

Modèle à trois variables


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 2 / 191
Chap 1 :Introduction et rappel

Ce cours présente des méthodes statistiques usuelles pour l'analyse de

données discrètes. Des données peuvent résulter, par exemple :

d'un sondage d'opinion pour des consommateurs (ex. : niveau de

satisfaction pour un service reçu) ;

d'une étude dans le domaine de la santé cherchant à cerner les

facteurs d'une maladie (ex. : variable réponse prenant la valeur `oui'

pour les sujets malades, `non' sinon) ;

etc.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 3 / 191
Introduction et rappel

Plusieurs outils statistiques s'orent à nous pour analyser des données

discrètes, ce cours visent à :

Présenter les méthodes classiques et celles les plus utilisées en

pratique,

Cerner la bonne méthode statistique à utiliser,

Appliquer correctement la méthode choisie en comprenant les idées

mathématiques de base derrière,

Bien interpréter les résultats obtenus.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 4 / 191
Introduction et rappel

Avant d'entrer dans le vif du sujet, rappelons certaines notions de

statistiques souvent employées dans ce cours.

Données : Des données sont des valeurs numériques (des nombres)

ou alphanumériques (des chaînes de caractères) représentant les

observations de certaines variables sur certains individus.

Population : La population est l'ensemble de référence sur lequel

porte l'étude dans le cadre de laquelle les données ont été recueillies.

Individu ou unité statistique : Un individu est un élément de la

population. L'ensemble des individus constitue la population. Chaque

observation est associée à un individu.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 5 / 191
Introduction et rappel

Échantillon : L'échantillon est un sous-groupe de la population,

composé des individus pour lesquels des observations ont été

recueillies. Si des mesures ont été prises pour tous les individus de la

population, on parle de recensement.

Variable : Le terme variable désigne la représentation d'une

caractéristique des individus. Ainsi, une variable n'est pas la

caractéristique elle-même, mais plutôt une mesure de cette

caractéristique.

Observation : Une observation est l'ensemble des valeurs obtenues en

mesurant des variables sur un individu de la population.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 6 / 191
Échantillonnage

Lorsque l'on estime des paramètres de la population à l'étude à partir des

observations d'un échantillon aléatoire de cette population, on fait de l'

inférence statistique .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 7 / 191
variable numérique

Les variables numériques peuvent être mesurées numériquement. Elles se

subdivisent en deux types : discrètes et continues.

Une variable discrète ne peut prendre qu'un nombre ni de valeurs (le

résultat du lancer d'un dé, le nombre de personnes frappées par la

méningite sur une période d'une année)

Une variable numérique est dite continue si elle peut prendre comme

valeurs tous les points d'un intervalle de nombres réels (Des variables

telles le temps, le poids ou la taille sont le plus souvent considérées

continues)

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 8 / 191
Remarque

Les données numériques ne sont pas forcément des observations d'une

variable numérique. C'est le cas par exemple du niveau de satisfaction

représenté par un nombre de 1 à 5, ou le chire 1 représente la catégorie 

très insatisfait ,  insatisfait  est représenté par le chire 5 et ainsi de

suite.

Pour des variables catégoriques ordinales, ce code numérique s'avère parfois


être un bon score pour représenter la variable, car il est plus rapide à écrire

ou taper que des chaînes de caractère.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 9 / 191
Remarque

Cependant, si la question est plutôt formulée de la façon suivante :

 Sur une échelle de 1 à 5, 1 représentant le plus faible niveau et 5 le plus

élevé, quel est votre niveau de ... ,

alors la variable mesurée sera de type numérique discrète.

Les deux variables ne sont pas identiques puisque l'utilisation de libellés

laisse plus de place à l'interprétation.

Selon la formulation de la question servant à mesurer la variable, elle sera

de type catégorique ordinale ou numérique discrète.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 10 / 191
Représentation d'une caractéristique

Un jeu de données résultant d'une collecte de données contient des variables

observées. Ces variables représentent des caractéristiques des individus d'une

population, mais pas toujours sous le format reproduisant le mieux la réalité.

Il y a d'un côté la réalité et de l'autre côté la façon choisie pour mesurer cette

réalité, en considérant toutes sortes de contraintes (instruments de mesure,

condentialité, budget, temps, etc.)

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 11 / 191
Exemple : variable pour représenter l'âge

L'âge d'une personne est naturellement représenté par une variable numé-

rique. Cependant, dans certains sondages, par souci de condentialité, cette

variable est catégorisée. Ainsi, l'individu qui répond au sondage doit sélec-

tionner, par exemple, une des classes suivantes :

moins de 15 ans ; 15 à 24 ans ; 25 à 44 ans ; 45 à 64 ans ; 65 ans et plus.

Alors la variable âge se retrouve dans le jeu de données sous un format

catégorique ordinal et non numérique.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 12 / 191
Type de traitement statistique d'une variable

Il arrive souvent que des variables observées soient transformées an de les

convertir d'un type à un autre avant leur traitement statistique.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 13 / 191
Variable dérivée pour le traitement statistique

A partir d'une variable observée (jeu de données d'origine), un choix est

fait quant à la méthode statistique qui sera employée. Cette méthode peut

traiter la variable observée de façon catégorique ou numérique. Le

statisticien doit d'abord manipuler les données an de créer, à partir de la

variable observée, une  variable dérivée  qui est du type correspondant

au traitement statistique à eectuer.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 14 / 191
généralités

Pour représenter les observations d'une variable catégorique, le principal

outil est un tableau de fréquences, aussi appelé tableau de contingence. Ce

tableau peut présenter une seule variable ou en croiser plusieurs. Ce cours

présente plusieurs tests et mesures associés à des tableaux de fréquences à

une (chapitre 2), deux (chapitre 3) ou trois (chapitre 4) variables.

Ainsi, ce module présente deux approches de traitement de variables

catégoriques : l'approche par tests d'hypothèses (tableaux de fréquences) et

l'approche par construction de modèles (GLM).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 15 / 191
Caractéristique de ces outils

An de choisir le bon outil statistique pour répondre à une question de

recherche dans une situation donnée, il faut considérer les points suivants :

Nombre de variables impliquées

Lorsqu'on veut étudier le lien entre deux variables, on peut ne considérer

que ces deux variables. C'est ce qu'on fait dans un tableau de fréquences à

deux variables ou dans un modèle linéaire généralisé simple. Cependant, on

possède parfois les observations d'autres variables, potentiellement liées aux

variables étudiées et qui pourraient améliorées les statistiques calculées. On

peut faire ça avec un tableau de fréquences à trois variables (ou plus) et

avec un modèle linéaire généralisé multiple.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 16 / 191
Type des variables impliquées

Les tableaux de fréquences traitent toutes les variables de façon catégorique.

Certaines mesures associées à ces tableaux sont cependant propres aux va-

riables catégoriques ordinales. Avec un GLM, la distribution de la variable

réponse est choisie en fonction du type de cette variable. Les variables expli-

catives peuvent quant à elles être aussi bien numériques que catégoriques.

Direction de la relation

Certains de ces outils statistiques ne supposent aucune direction dans la

relation entre les variables, donc ils ne supposent aucune causalité. C'est le

cas des tableaux de fréquences. Toutes les variables ont le même intérêt dans

un tableau de fréquences. On n'a pas à identier une variable réponse et une

variable explicative.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 17 / 191
Comparaison avec d'autres outils statistiques

Les outils présentés dans ce cours ne sont certes pas les seuls à pouvoir

traiter des variables catégoriques. La première méthode statistique qui me

vient à l'esprit lorsque je pense au traitement de variables catégoriques et

l'analyse de la variance (ANOVA). Pour ce type de modèle, les variables

explicatives, appelées dans ce cas facteurs, sont des variables catégoriques.

Cependant, dans ce cours, on traite plutôt de méthodes d'analyse de données

catégoriques pour lesquelles la variable réponse est catégorique ou numérique

discrète (certains GLM) ou pour lesquelles il n'y a pas de direction supposée

dans la relation entre les variables (tableaux de fréquences).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 18 / 191
Figure  Comparaison des méthodes.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 19 / 191
Expérience avec la loi Poisson

La loi de Poisson permet de modéliser le nombre de réalisations d'un

événement dans un intervalle de temps et/ou d'espace. Par exemple, la loi

Poisson serait une bonne candidate pour modéliser les dénombrements

suivants :

le nombre de clients se présentant à un guichet automatique d'une

banque en une heure ;

le nombre d'accidents par années à une intersection de la ville de

Québec ;

le nombre de centenaires dans une communauté.

On appelle parfois la loi Poisson  loi des évènements rares .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 20 / 191
Expérience avec la loi Poisson

La fonction de masse, aussi appelée fonction de probabilité, d'une variable

aléatoire Poisson, notée Y ∼ Poisson(λ), est

λy exp −λ
P(Y = y ) = y! y = 0, 1, 2, . . .

Le paramètre de la distribution est à la fois l'espérance et la variance de Y :

E [Y ] = Var [Y ] = λ.

Aussi, il est pertinent de noter que la distribution Poisson peut être

approximée par la loi normale lorsque λ est grand. Dans ce cas,

Poisson(λ) ∼ N(λ; λ).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 21 / 191
Expérience avec la loi Binomiale

Le contexte de la loi binomiale est le suivant :

On fait une expérience qui peut prendre 2 résultats possibles : succès ou

échec.

On répète cette expérience de façon indépendante n fois, et on note S le

nombre de succès obtenus.

Notez que chaque expérience a la même probabilité de succès π.


On dit alors que S suit une loi binomiale de paramètres n (nombre total

d'essais) et π (probabilité d'un succès).

On note S ∼ Bin(n, π).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 22 / 191
Expérience avec la loi Binomiale

En résumé, les conditions pour qu'il y ait une expérience binomiale sont les

suivantes :

n essais ;

deux résultats possibles pour chaque essai : succès et échec ;

toujours la même probabilité de succès =π

indépendance entre chacun des n essais ;

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 23 / 191
Expérience avec la loi Binomiale

Exemple : opinion sur l'avortement

Les Américains sont-ils plutôt favorables ou défavorables à l'avortement ?

Pour répondre à cette question, on observe un échantillon de 1223

Américains interrogés en 2010 dans le cadre de l'Enquête Sociale Générale

aux États-Unis. On a posé la question suivante aux participants :

Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui

ne veut plus d'enfants de se faire avorter légalement ? Au total, 587

personnes ont répondu oui à cette question, et 636 personnes ont répondu

non.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 24 / 191
Expérience avec la loi Binomiale

Exemple : opinion sur l'avortement ... suite

Ici, les 4 conditions d'une expérience avec la loi binomiale sont respectées :

n = 1223 essais "individus sondés" ;

2 résultats possibles pour chaque essai : succès = oui, échec = non ;

la probabilité de succès π est ici la proportion dans la population des

Américains favorables à l'avortement ;

on peut supposer qu'il y a indépendance entre chacun des essais

puisque les individus participants à l'étude ont été sélectionnés avec un

plan de sondage se rapprochant beaucoup de l'échantillonnage

aléatoire simple.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 25 / 191
Expérience avec la loi Binomiale

La fonction de masse de la loi binomiale s'écrit de la façon suivante :



Cns π s (1 − π)n−s ,

pour s = 1, 2, . . . , n;
P(S = s) =

0, sinon .
L'espérance et la variance de S sont :

E [S] = nπ

Var [S] = nπ(1 − π) :

Remarque: observer une seule variable Bin(n; π) revient à observer n


variables 11 ; . . . ; 1n iid Bin(1; π), soit la loi Bernoulli(π). On a alors
Pn
S= u=1 1u , une somme de n variables iid Bin(1; π).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 26 / 191
Expérience avec la loi Binomiale

Notez aussi que si n → +∞(n > 30), π → 0 (p ≤ 0, 1) tels que

np(1 − p) ≤ 10, alors la loi Bin(n; π) tend vers la loi Poisson (nπ = λ).
En d'autres mots,

λs exp −λ
lim P(S = s) = s!
n → +∞, π → 0

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 27 / 191
Expérience avec la loi Binomiale

Notez que l'on peut approximer la loi binomiale par la loi normale lorsque n
est grand en utilisant le résultat du Théorème Limite Central.

Dans la pratique, lorsque n ≥ 30, np ≥ 5 et n(1 − p) ≥ 5, l'erreur sur les

probabilités calculées est très faible.

asympt
S −−−−→ N(nπ; nπ(1 − π))

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 28 / 191
Méthode du maximum de vraisemblance

Etant donné un échantillon issu d'une loi dont la pdf est f (x, θ), on appelle

fonction de vraisemblance la quantité

Qn
L(x1 , . . . , xn , θ) = i=1 f (xi ; θ).

An de bien comprendre la motivation derrière la MMV, considérons un

échantillon X1 , . . . , Xn issu d'une loi de probabilité discrète de fdf

f (x; θ) = Pθ {X1 = x} où θ est un paramètre inconnu. L'idée qui est à

l'origine de cette méthode est la suivante :

Si l'on observe (x1 , . . . , xn ) c'est que la Pθ {(X1 , . . . , Xn ) = (x1 , . . . , xn )}


doit être assez grande. On prend alors comme estimateur de θ celui qui

maximise cette probabilité.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 29 / 191
Méthode du maximum de vraisemblance

Exemple

Soit θ ∈]0, 1[ la probabilité de succès d'une expérience à deux issues

possibles. On répète cette expérience n fois de manière à obtenir un

échantillon x1 , . . . , xn . On a f (x; θ) = P{X1 = x} = θx (1 − θ)1−x , avec

x =0 ou 1. L'estimateur θb de θ par la MMV est obtenu en maximisant, par

rapport à θ, la quantité

n
θxi (1 − θ)1−xi
Y
L(x , θ) = P{(X1 , . . . , Xn ) = (x1 , . . . , xn )} =
i=1 (1)

= θnx (1 − θ)n(1−x)
où x = (x1 , . . . , xn ).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 30 / 191
Exemple (suite)

En dérivant L(x , θ) par rapport à θ on obtient

dL(x , θ)
L′ (x , θ) = = nxθnx−1 (1 − θ)n(1−x) − n(1 − x)θnx (1 − θ)n(1−x)−1 .

En posant L′ (x , θ) = 0 on obtient

 nx n(1 − x) 
θnx (1 − θ)n(1−x) − = 0,
θ 1−θ

et puisque 0 < θ < 1, on en déduit

nx n(1 − x)
− = 0,
θ 1−θ

ce qui donne θ = x. L'estimateur de θ par la MMV est alors θb = X .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 31 / 191
Tests d'hypothèses

Dénition
Soit θ∈Θ un paramètre d'une loi de probabilité et Θ0 et Θ1 deux

sous-ensembles disjoints de Θ tels que Θ0 ∪ Θ1 = Θ. Les assertions

H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 sont appelées respectivement l'hypothèse

nulle et l'hypothèse alternative.

Un test d'hypothèse ou test statistique est une démarche conduisant à

élaborer une règle de décision permettant de faire un choix entre les deux

hypothèses statistiques H0 et H1 .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 32 / 191
introduction

La situation générale est celle où l'échantillon est issu d'une population

dont la loi dépend d'un paramètre θ ∈ Θ ⊂ Rd , d ∈ N, et on cherche à

conclure que θ ∈ Θ0 ou θ ∈ Θ1 , où Θ0 ⊂ Θ et Θ1 ⊂ Θ sont

complémentaires.

Dénition
Les hypothèses  H0 : θ ∈ Θ0  et  H1 : θ ∈ Θ1 , où Θ0 et Θ1 sont deux

sous-ensembles complémentaires de Θ, s'appellent respectivement

l'hypothèses nulle et l'hypothèses alternative.

Lorsque Θi est réduit à un seul élément, on dit que Hi est une hypothèse

simple, sinon Hi est une hypothèse composite (pour i = 0, 1).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 33 / 191
Caractéristiques des tests d'hypothèses

On utilise parfois les adjectifs suivants pour décrire les tests d'hypothèses :

bilatéral ou unilatéral : Si l'hypothèse alternative H1 comporte une

direction particulière, le test est dit  unilatéral. Si au contraire

l'hypothèse alternative est le complément de l'hypothèse nulle, on qualie

le test de  bilatéral .

exact ou asymptotique : Si la distribution sous H0 de θ, la statistique du

test, est vraie peu importe la taille de l'échantillon, le test peut être qualié

d' exact . À l'inverse, si la distribution sous H0 de θ utilisée pour le test

est vraie seulement lorsque la taille de l'échantillon est grande, on parlera

d'un test  asymptotique .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 34 / 191
Caractéristiques des tests d'hypothèses

Les tests paramétriques se basent sur des distributions statistiques

supposées dans les données. Par conséquent, certaines conditions de validité

doivent être vériées pour que le résultat d'un test paramétrique soit able.

Les tests non-paramétriques ne se basent pas sur des distributions

statistiques.

Les tests paramétriques sont plus puissants que leurs équivalents

non-paramétriques. En d'autres termes, un test paramétrique sera plus apte

à aboutir à un rejet de H0 . La plupart du temps, la p-value calculée par un

test paramétrique sera inférieure à la p-value calculée par un équivalent

non-paramétrique exécuté sur les mêmes données.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 35 / 191
Types de tests d'hypothèses

Voici quatre types de tests d'hypothèses usuels. Ces types sont dénis en

fonction de l'objectif des tests.

Les tests de conformité

Les tests d'adéquation ou d'ajustement

Les tests d'homogénéité

Les tests d'association.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 36 / 191
Types de tests d'hypothèses

Les tests de conformité consistent à tester si un paramètre ou un vecteur

de paramètres θ est égal à un vecteur de valeurs préétablies θ0 . Par

exemple, si un seul paramètre θ est testé, les hypothèses d'un test de

conformité sont formulées comme suit :

Si θ est de dimension supérieure à 1, il est compliqué de formuler une

hypothèse alternative incluant une direction. Dans ce cas, les tests

bilatéraux sont plus simples.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 37 / 191
Types de tests d'hypothèses

Les tests d'adéquation ou d'ajustement (en anglais goodness of t tests)

permettent de tester si des observations s'ajustent bien à un certain modèle

ou à une certaine distribution. Par exemple, le test F global en régression et

en ANOVA teste l'ajustement du modèle, le test de Shapiro-Wilk teste

l'adéquation d'observations à une loi normale. Les hypothèses d'un test

d'adéquation sont typiquement formulées comme suit :

H0 : le modèle s'ajuste bien aux données

H1 : le modèle ne s'ajuste pas bien aux données

Ainsi formulé, il s'agit d'un test bilatéral.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 38 / 191
Types de tests d'hypothèses

Les tests d'homogénéité (ou de comparaison) visent à vérier si 2

échantillons ou plus proviennent d'une même population. Les tests de

comparaison de moyennes en sont des exemples. Si un seul paramètre est

comparé et qu'on a seulement deux échantillons, les hypothèses sont

formulées ainsi :

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 39 / 191
Types de tests d'hypothèses

Les tests d'association, en particulier les tests d'indépendance, servent à

tester la présence d'un lien entre deux variables. Rappelons que le terme

association est plus large que le terme dépendance.

Un test d'association courant consiste à vérier si un coecient de

corrélation ou encore un ou des paramètres d'un modèle sont nuls. Si on

note ρ la corrélation entre X et Y , les hypothèses du test peuvent être

formulées de façon équivalente comme suit :

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 40 / 191
introduction

Dénition
On appelle erreur de première espèce ou erreur de type 1 la décision de

rejeter H0 alors qu'elle est vraie. La décision de ne pas rejeter H0


alors qu'elle est fausse s'appelle l'erreur de deuxième espèce ou erreur

de type 2.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 41 / 191
introduction

Le tableau ci-dessous résume la situation

H0 vraie H0 fausse

Rejeter H0 Mauvaise décision Bonne décision

Accepter H0 Bonne décision Mauvaise décision

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 42 / 191
introduction

Dénition
Les probabilités des erreurs de première et deuxième espèce sont notées

• α = P{Rejeter H0 |H0 est vraie} > 0, et

• β = P{Ne pas rejeter H0 |H0 est fausse} > 0.

Elles s'appellent respectivement risque de première espèce et risque de

deuxième espèce.

La décision idéale est celle où ces deux risques seraient nuls, i.e.

α = β = 0. Mais cela est, sauf dans des situations triviales, impossible.

Comme il est impossible de contrôler en même temps α et β, on xe α et

on cherche la décision pour laquelle β est minimum.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 43 / 191
Dénition
Un test d'hypothèses est une procédure, basée sur l'échantillon observé

x1 , . . . , xn , qui permet de déterminer un sous ensemble R de Rn tel que

Si (x1 , . . . , xn ) ∈ R alors on décide de rejeter H0 et d'accepter H1 , et

Si (x1 , . . . , xn ) ∈
/R alors on décide de rejeter H1 et d'accepter H0 .

L'ensemble R est appelé  région critique  ou  région de rejet  .

La fonction ϕ(x) = IR (x), dénie à partir de la région critique d'un test,

s'appelle la fonction test. Par abus de langage on notera par ϕ le test et sa

fonction test.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 44 / 191
Puissance de test

Il est usuel de noter :

Le risque de première espèce la valeur α (la probabilité de rejeter H0


alors qu'elle est vraie) telle que : P(X ∈ R|H0 )

Le risque de deuxième espèce la valeur β (la probabilité d'accepter H0


alors que H1 est vraie) telle que : P(X ∈ R|H1 )

Dénition
On appelle puissance d'un test la probabilité de rejeter H0 alors qu'elle est

eectivement fausse soit, dans les notations précédentes : P(X ∈ R|H1 ) .

La puissance, qui est la capacité à détecter qu'une hypothèse nulle est

fausse, n'est rien d'autre que 1 − β.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 45 / 191
Tests d'hypothèses

Remarque : La statistique du test α = P{Rejeter H0 |H0 est vraie} >0 est

la même que celle utilisée pour l'intervalle de conance. En général pour les

lois discrètes il est dicile de trouver les valeurs critiques sur les tables des

lois d'où le fait d'utiliser l'approximation normale dans les enquêtes dont la

taille de l'échantillon est assez grande.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 46 / 191
Tests asymptotiques usuels

Soit θ un paramètre scalaire. On cherche à mener le test suivant sur ce

paramètre :

Nous utilisons fréquemment dans ce cours trois types de test asymptotiques

usuels. Il s'agit des tests de Wald, score et du rapport de vraisemblance.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 47 / 191
Test du rapport de vraisemblance

Pour le test du rapport de vraisemblance, nous allons nous ramener à un

cas plus général où θ est un vecteur de paramètres. On cherche à tester :

H0 : θ ∈ Θ0 vs H1 : θ ∈ Θc0 avec (Θc0 = Θ ⊖ Θ0 )

Notez que ce test possède uniquement une forme bilatérale. Le rapport de

vraisemblance est déni comme suit :

supθ∈Θ0 L(θ|x)
Λ= supθ∈Θ L(θ|x)

Si θb, le MV de θ existe, et que θb0 représente le MV sous l'espace Θ0 , alors

le rapport de vraisemblance peut s'écrire plus simplement :

L(θb0 |x)
Λ=
L(θ|x)
b

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 48 / 191
Test du rapport de vraisemblance

Pour eectuer un test de rapport de vraisemblance, on utilise la statistique

suivante :

LR = −2 ln(Λ) = −2 ln( L(θb0 |x) )


b
L(θ|x)

Sous H0 , lorsque n → ∞, cette statistique suit une loi du khi-deux à d


degrés de liberté (Casella et Berger, 2002) :

asympt
LR −−−−→ χ2d

Le nombre de degrés de liberté d est dénie par : d = dim Θ − dim Θ0 .


On rejette H0 au seuil α ssi LR > χ2d

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 49 / 191
Exemple :Opinion sur l'avortement.

Les Américains sont-ils plutôt favorables ou défavorables à l'avortement ?

Pour répondre à cette question, on observe un échantillon de 1223

Américains interrogés en 2010 dans le cadre de l'Enquête Sociale Générale

aux États-Unis. On a posé la question suivante aux participants :

Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui

ne veut plus d'enfants de se faire avorter légalement ? Au total, 587

personnes ont répondu oui à cette question, et 636 personnes ont répondu

non.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 50 / 191
Exemple :Opinion sur l'avortement.

Pour déterminer si les Américains manifestent majoritairement une

préférence pour ou contre l'avortement, nous pouvons tester H0 : π = 0.5


contre H1 : π ̸= 0.5.
Pour répondre à la question de recherche ainsi formulée, on doit eectuer

un test bilatéral. Si on formulait plutôt la question de recherche ainsi : 

Est-ce que la majorité des Américains sont défavorables à l'avortement ? ,

on devrait plutôt faire un test unilatéral. Les hypothèses confrontées

seraient H0 : π = 0.5 versus H1 : π < 0.5. L'hypothèse alternative a été

choisie vers la gauche plutôt que vers la droite, car des sondages précédents

ont révélé que les Américains étaient majoritairement défavorables à

l'avortement (ex. GSS 1991 : π


b = 424/950 = 0.446). On se demande si

c'est encore vrai.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 51 / 191
Nous avons s, une observation de la variable aléatoire S, qui suit une loi

Bin(n, π). La vraisemblance du paramètre π est :

L(π|s) = Cns π s (1 − π)n−s

La statistique du test de rapport de vraisemblance est :

0 |S)
LR = −2 ln( L(π
π |S) )
L(b

où π
b est l'estimateur du maximum de vraisemblance de π. Ainsi :

C s π s (1−π )n−s
LR = −2 ln( Cns πb0s (1−bπ0)n−s ) = −2(s ln( ππb0 ) + (n − s) ln( 11−π 0
π ))
−b
n

Sous H0 , lorsque n → ∞, cette statistique suit une loi du khi-deux à 1


asympt
degré de liberté : LR −−−−→ χ21

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 52 / 191
La valeur observée de S est ici s = 587. La proportion d'Américains

favorables à l'avortement π est donc estimée par π


b = 587/1223 = 0.48.
Eectuons maintenant le test du maximum de vraisemblance pour illustrer

son fonctionnement.

La valeur observée de la statistique de test est

lr = −2(587 ln( 00..48


5
) + (1223 − 587) ln( 11−−00..48
5
) = 1.9637

Le seuil observé du test (p-value) est

P(χ21 > 1.963730811) = 0.1611149

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 53 / 191
Test de Wald

H0 : θ = θ 0 contre H1 : θ ̸= θ0

Le test de Wald compare l'écart entre le coecient théorique θ0 et sa

valeur estimée par l'estimateur du maximum de vraisemblance θb, sous

l'hypothèse que la diérence est distribuée approximativement selon une loi

de Gauss. En pratique le carré de la diérence est comparé à un seuil de la

loi du chi2. Dans le cas univarié, la statistique de Wald est

b 0 )2
(θ−θ
var (θ)
b

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 54 / 191
Test de Wald

Si on compare la diérence à un quantile de la loi de Gauss, la statistique

de test est

θ−θ
b 0
Se(θ)
b

où Se(θ)
b est l'écart-type de l'estimateur du maximum de vraisemblance.

√ 1
Un estimateur raisonnable de cet écart-type est donné par , où In
In (MLE )
est l'information de Fisher du paramètre.

Dans le cas univarié, un test sur plusieurs paramètres simultanément est

réalisé en utilisant une matrice de variance. Par exemple, on utilise ce test

pour une variable catégorielle recodée en plusieurs variables dichotomiques.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 55 / 191
Exemple (Suite) : opinion sur l'avortement.

Test de Wald sur une proportion


Le test de Wald se base sur la statistique suivante :

b−π0 asympt
Zw = qπ −−−−→ N(0; 1)
b(1−π
π b)
n

On voit que la variance de l'estimateur est estimée dans Zw .


La valeur observée de la statistique du test de Wald est :

zw = q 0.48−0.5 = −1.459625.
0.48(1−0.48)
1223

On a (1.459625)2 < χ21,0.05 = 3.84.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 56 / 191
Exemple (Suite) : opinion sur l'avortement.

Le seuil observé du test bilatéral est le suivant :

2P(N(0, 1) > | − 1.459625|) = 0.1443932.

Ce seuil observé étant supérieur au seuil théorique de 5%, on ne peut pas

rejeter l'hypothèse selon laquelle les Américains sont divisés sur la question

de l'avortement.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 57 / 191
Test score

Les tests score (en anglais score tests), aussi appelés  tests du

multiplicateur de Lagrange , sont dus au statisticien C.R. Rao. Ils se

basent sur la statistique de test suivante :

S(θ0 ) asympt
√ −−−−→ N(0, 1)
I (θ0 )


où S(θ) = ∂θ ln L(θ|x) est la fonction score calculée au point θ = θ0 et

I (θ0 ) est la matrice d'information espérée (ici de dimension 1 × 1) calculée

au point θ = θ0 . Ce test comporte moins d'approximation que le test de

Wald puisque l'erreur-type se trouvant au dénominateur n'est pas estimée.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 58 / 191
Exemple (Suite) : opinion sur l'avortement.

on a

S(π) = ln L(π|x)
∂π

= (ln(Cns ) + ln(π s ) + ln((1 − π)n−s )
∂π
(2)
s n−s
= −
π 1−π
s − nπ n(bπ − π)
= = b = ns
avec π
π(1 − π) π(1 − π)
Donc
b−π0 )
n(π
S(π0 ) asympt
√ = qπ0 (1−π0 ) −−−−→ N(0, 1)
n
I (π0 ) π0 (1−π0 )

ou encore

(S(π0 ))2 π −π0 )2 asympt


I (π0 ) = n(b
π0 (1−π0 ) −−−−→ χ21
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 59 / 191
Exemple (Suite) : opinion sur l'avortement.

La valeur observée de la statistique de test pour le test score est :

zw = q0.48−0.5 = −1.401144.
0.5(1−0.5)
1223

Le seuil observé du test bilatéral est le suivant :

2P(N(0, 1) > | − 1.401144|) = 0.1443932.

Le seuil observé du test unilatéral est le suivant :

P(N(0; 1) < −1.401144) = 0.08058547 > 5%

On ne peut donc pas conclure que les Américains sont, en 2010,

majoritairement contre l'avortement. On voit ici que le test unilatéral est

plus puissant que le test bilatéral.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 60 / 191
Remarques :

Les seuils observés dièrent un peu entre les tests score et de Wald,

mais l'inférence statistique est la même.

Le test du rapport de vraisemblance aboutit à la même conclusion que

le test score. Les seuils observés pour les 2 tests bilatéraux sont

pratiquement égaux.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 61 / 191
Chap 2 :Tables de contingence.

Pour représenter les observations d'une variable catégorique, le principal

outil est un tableau de fréquences, aussi appelé tableau de contingence. Ce

tableau peut présenter une seule variable ou en croiser plusieurs. Ce cours

présente plusieurs tests et mesures associés à des tableaux de fréquences à

une, deux ou trois variables.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 62 / 191
À quoi servent ces outils statistiques ?
Les outils statistiques présentés dans ce cours permettent de répondre à une

question de recherche du type : Quel est le lien entre les caractéristiques A

et B des individus de la population de l'étude ? Par exemple :

Quel est le lien entre la couleur des cheveux et la couleur des yeux ?

Est-ce que le niveau de scolarité est associé à la classe de revenu d'un

individu ? Si oui, cette association est-elle positive ou négative ?

Est-ce que le sexe d'une personne a une inuence sur son risque de

développer un cancer du poumon ? Si oui, de quelle façon ?

En termes statistiques, la question de recherche se traduit comme ceci :

Quel est le lien entre les variables X et Y ? en supposant que X représente

la caractéristique A et Y la caractéristique B.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 63 / 191
Tableau de fréquences univariées et loi multinomiale

Avant de présenter des méthodes qui permettent d'étudier le lien entre

deux variables, voyons comment étudier une seule variable catégorique.

Dans cette section, nous présenterons des outils permettant de répondre à

la question de recherche suivante :

Quel est le portrait de la caractéristique A dans la population de l'étude ?

La reformulation statistique de cette question est la suivante :

De quoi ont l'air les observations de la variable Y ?

en supposant que la variable Y représente la caractéristique A.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 64 / 191
La loi multinomiale

Le contexte de la loi multinomiale est le suivant. On fait une expérience qui

peut prendre r résultats possibles (m1Y , . . . , mrY ). On répète cette

expérience de façon indépendante n fois, et on note Nj le nombre de

résultats mjY obtenus (j = 1, . . . , r ). En fait, on pourrait noter Y1 à Yn


l'échantillon découlant de ces n expériences (souvent n individus sondés).

Valeur de Y
Y
m1 ...
Y
mj ...
Y
mr

Fréquence N1 ... Nj ... Nr

On vient ainsi de créer un tableau de fréquences à une variable. Les

fréquences sont ici représentées par des Nj .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 65 / 191
La loi multinomiale

Une réalisation des variables aléatoires (N1 , . . . , Nr ) sera dans cette section

notée (n1 , . . . , nr ).
Pour chaque expérience, πj représente la probabilité d'obtenir le résultat

mjY : πj = P(Y = mjY ). Ce contexte est similaire à celui de la distribution

binomiale, à la diérence que le nombre d'issues possibles à l'expérience

peut être supérieur à 2. On dit que le vecteur N = (N1 , . . . , Nr ) suit une loi

multinomiale de paramètres n (nombre total d'essais) et (π1 , . . . , πr )


(probabilités des résultats de chacun des types). On a bien sûr les 2

contraintes suivantes :

N1 + . . . + Nr = n et π1 + . . . + πr = 1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 66 / 191
La loi multinomiale

En raison de la première contrainte, les Nj ne sont pas des variables

indépendantes. On note

N ∼ Multinomiale(n; π1 , . . . , πr ).

De façon marginale, on a

Nj ∼ Bin(n, πj )

pour j = 1, . . . , r . Notez que lorsque r = 2, il devient inutile de travailler

avec le vecteur N = (N1 , N2 ) étant donné que la valeur d'une variable peut

être déduite de l'autre variable (N1 = n − N2 ). On dénit plutôt une des

deux modalités comme étant un succès (disons la modalité 1) et on

travaille avec N1 ∼ Bin(n; π1 ).


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 67 / 191
La loi multinomiale

Cas particulier:
r = 2, où n = n1 + n2 et π1 + π2 = 1

n!
P(N1 = n1 , N2 = n2 ) = π n1 π n2
n1 !n2 ! 1 2
n!
= π n1 (1 − π1 )n−n1
n1 !(n − n1 )! 1
N1 ∼ Bin(n; π1 ).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 68 / 191
La loi multinomiale

La fonction de masse de la loi multinomiale s'écrit de la façon suivante :

n! n1
P(N1 = n1 , . . . , Nr = nr ) = n1 !,...,nr ! π1 . . . πrnr

pour (N1 , . . . , Nr ) ∈ Nr : n1 + . . . + nr = n, soit l'ensemble des nombres

naturels (entiers non négatifs) de dimension r, tel que la somme des nj


vaut n. L'espérance et la matrice de variance-covariance de N sont :

E [Nj ] = nπj pour j = 1, . . . , r


Var [Nj ] = nπj (1 − πj ) pour j = 1, . . . , r

Cov (Nj ; Nj ′ ) = −nπj πj ′ pour j ̸= j

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 69 / 191
La loi multinomiale

On veut répartir n objets dans r groupes E1 , . . . , Er , avec card(Ei ) = ni et


Pr
i=1 ni = n.
Question : Quel est le nombre de répartitions possibles ?

Etape 1 : Catégorie E1 ; choix de n1 parmi n (Cnn1 )


n2
Etape 2 : Catégorie E2 ; choix de n2 parmi n − n1 (Cn−n1
)
.
.
.

Etape r : Catégorie Er ; choix de nr parmi n − n1 − n2 − . . . − nr −1 (Cnnrr )


Le nombre de répartition possibles

n2 n!
Cnn1 Cn−n1
. . . Cnnrr = n1 !n2 !...nr !

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 70 / 191
La loi multinomiale

300 personnes ont été choisi au hasard. On a la répartition suivante selon

la couleur des yeux.

Ei Bleus Verts Maron Noirs

Ni 48 35 122 95

N = (N1 , N2 , N3 , N4 ) ∼ Multinomiale(300; π1 , π2 , π3 , π4 ).

n! n1 n2 n3 s4
P(N1 = n1 , N2 = n2 , N3 = n3 , N4 = n4 ) = n1 !n2 !n3 !n4 ! π1 π2 π3 π4

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 71 / 191
Regroupement

Exemple : reprenons l'exemple de la couleur des yeux.

E1∗ = E1 ∪ E2 (yeux clair) ; E2∗ = E3 ∪ E4 (yeux foncés)

Ei
∗ clairs Foncés

Nj
∗ 83 217


(N1 , N2 )
∗ ∼ M(300; π1∗ , π2∗ )

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 72 / 191
Regroupement

Cas général :
Soient E1 , . . . , E r et E1∗ , . . . , Es∗ deux systèmes complets de catégories.

avec s ≤ r , Ej∗ = ∪i∈Ij Ei et I1 , . . . , Is est une répartition de 1, . . . , r .

On a bien sûr les 2 contraintes suivantes :

πj∗ = P(X ∈ Ij∗ ) = i∈Ij πi


P

Nj∗ = i∈Ij Ni
P

(N1∗ , . . . , Ns∗ ) ∼ M(n; π1∗ , . . . , πs∗ )

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 73 / 191
Moment de la loi multinomiale

On sait que Ni ∼ B(ni , πi ) alors E (Ni ) = nπi et Var (Ni ) = nπi (1 − πi ).


On sait aussi que Cov (X , Y ) = Cov (X , E (Y /X ))

Pour calculer Cov (Ni , Nj )


→ Il faut trouver la loi de (Nj /Ni )

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 74 / 191
Moment de la loi multinomiale

On sait que la distribution marginale de Ni est Ni ∼ B(n, πi ) et celle de

(N1 = n1 , . . . , Nr = nr ) ∼ M(n, π1 , . . . , πr ), quelle est alors la distribution

de (N1 = n1 , . . . , Ns = ns ), s < r ?.
Ps Pr ∗
Sr ∗
Pr
Notons i=1 ni ≤ n = i=1 ni , Es+1 = s+1 Ej , Ns+1 = j=s+1 Nj et


P s
πs+ 1 =1− i=1 πi

∗ ∗
P(N1 = n1 , . . . , Ns = ns ) = P(N1 = n1 , . . . , Ns = ns , Ns+ 1 = ns+1 )
n! ∗
∗ ns+
= ∗ π1n1 . . . πsns πs+1
1
n1 ! . . . ns !ns+1 !
∗ ) ∼ M(n, π , . . . , π , π ∗ )
(N1 , . . . , Ns , Ns+1 1 s s+1
∗ )
(N1 , . . . , Ns ) ∼ M(n, π1 , . . . , πs , πs+1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 75 / 191
Moment de la loi multinomiale

Distribution conditionnelle : Supposons que l'on connaisse les valeurs prises

par les premières variables N1 , . . . , Ns , notons A = (N1 = n1 , . . . , Ns = ns )


et B = (N1 = n1 , . . . , Nr = nr ). Calculons : P(B/A).

P(N1 = n1 , . . . , Nr = nr )
P(B/A) =
P(N1 = n1 , . . . , Ns = ns )
n! n1 ns ns+1 nr
n1 !...ns !...nr ! π1 . . . πs πs+1 . . . πr
= n! n1 ns ∗ ns+1 +...+nr
∗ ! π1 . . . πs (πs+1 )
n1 !...ns !ns+ 1
∗ ! r
ns+ 1
Y πj
= ( ∗ )nj
ns+1 ! . . . nr ! π
j=s+1 s+1


Ps ∗
Ps
avec ns+ 1 =n− i=1 ni et πs+ 1 =1− i=1 πi

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 76 / 191
Moment de la loi multinomiale

Corollaire :

1 Pour j > s, la distribution de


Ps πj
(Nj /N1 = n1 , . . . , Ns = ns ) ∼ B(n − ∗ )
i=1 ni , πs+ 1

j π
2 Pour i ̸= j , la distribution de (Nj /Ni = ni ) ∼ B(n − ni , 1−π i
)


Ps ∗
Ps
avec ns+ 1 =n− i=1 ni et πs+ 1 =1− i=1 πi

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 77 / 191
Moment de la loi multinomiale

On sait que Ni ∼ B(ni , πi ) alors E (Ni ) = nπi et Var (Ni ) = nπi (1 − πi ).


On sait aussi que Cov (X , Y ) = Cov (X , E (Y /X ))
Calculons Cov (Ni , Nj )
j π
On a (Nj /Ni ) ∼ B(n − Ni , 1−π i
)

Donc E (Nj /Ni )) = (n − Ni ) 1−π i
d'où

πj
Cov (Ni , Nj ) = Cov (Ni , E (Nj /Ni )) = Cov (Ni , (n − Ni ) )
1 − πi
πj πj
= Cov (Ni , (n − Ni )) = − Var (Ni )
1 − πi 1 − πi
πj
=− nπi (1 − πi ) = −nπi πj
1 − πi

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 78 / 191
Moment de la loi multinomiale

Proposition :

 nπi (1 − πi ) pour i = j
Cov (Ni , Nj ) =
-nπ π pour i ̸= j

i j
P
Cov (Ni , Nj ) < 0 car Nj = n − Ni − l̸=(i,j) Nl lorsque Ni ↗ alors Nj ↘

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 79 / 191
Relation de la loi multinomiale avec la loi de poisson

Thèorème :

Soient N1 , N2 , . . . , Nr , r variables aléatoires discrétes indépendantes de loi


Pr
de Poisson Ni ∼ P(mi ), N = i=1 Ni , alors la distribution de

(N1 , N2 , . . . , Nr /N = n) ∼ M(n, π1 , π2 , . . . , πr ) avec πi = Prmi


i=1 mi

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 80 / 191
(mi )ni exp(−ni )
Démonstration : P(Ni = ni ) =
Pr
ni ! avec N= i=1 Ni ,
Pr
N ∼ P(m) et m= i=1 mi

Notons A = (N1 = n1 , . . . , Nr = nr ) et B = (N = n), on a A⊂B


Calculons
P(N1 = n1 , . . . , Nr = nr , N = n)
P(N1 = n1 , . . . , Nr = nr /N = n) =
P(N = n)
P(N1 = n1 , . . . , Nr = nr )
=
P(N = n)
Qr Qr mini exp(−mi )
P(N = n ) i=1
= i=1
i i ni !
= mn exp(−m)
P(N = n)
n!
r
Y mi n!
= [ ( )ni ] Qr
m i=1 ni !
i=1
r
n! Y mi
= ( )ni ∼ M(n, π1 , . . . , πr )
n1 ! . . . nr ! m
i=1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 81 / 191
Exemple : Soit y1 = nombre de personnes mortes en voitures, y2 = nombre

de personnes mortes en avion, et y3 = nombre de personnes mortes en

train. Un modèle de Poisson pour (Y1 , Y2 , Y3 ) considère ces variables

comme indépendantes de paramètres (µ1 , µ2 , µ3 ). La loi jointe des Yi est le


P
produit des densités. Le total n= Yi a une loi de Poisson de paramètre
P
µi .
Le modèle Poissonien suppose que n est aléatoire et non xé. Si l'on

suppose un modèle Poissonien et que l'on conditionne par rapport à n, Yi


n'a plus une loi de Poisson car chaque Yi < n. On a :

r
X n! Y
P(Y1 = y1 , . . . , Yr = yr / Yi = n) = Qr (πi )ni
i=1 ni ! i=1
mi
avec πi = m . Il s'agit de la distribution multinomiale (n, π) .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 82 / 191
Test d'hypothèses sur la valeur de π = (π1 , . . . , πr )

On cherche à établir un test sur les paramètres de la loi multinomiale avec

les hypothèses suivantes.

H0 : π = π0 ou (π1 , . . . , πr ) = (π0,1 , . . . , π0,r )


H1 : π ̸= π0 ou (π1 , . . . , πr ) ̸= (π0,1 , . . . , π0,r )

Il s'agit d'un test bilatéral multivarié. Nous allons tester ces hypothèses

avec un test de rapport de vraisemblance et un test qui reviendra à de

multiples reprises dans ce cours : le test du khi-deux de Pearson

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 83 / 191
Test de rapport de vraisemblance sur la valeur de π

Nous avons N = (N1 , . . . , Nr ), une observation de la variable aléatoire N,


qui suit une loi Multinomiale(n, π). La vraisemblance de paramètre π est

n! n1
L(π|N) = n1 !...nr ! π1 . . . πrnr

Le logarithme de cette valeur est :

n! Pr
ln(L(π|N)) = ln( n1 !...nr!
)+ j=1 nj ln(πj )

La statistique du test du rapport des vraisemblances est donc :

LR = −2(ln L(π0 |N) − ln L(b π |N))


n! P r n! Pr
=-2(ln(
n1 !...nr ! ) + j=1 nj ln(π0,j ) − ln( n1 !...nr ! ) − j=1 nj ln(b
πj )
Pr π0,j asympt 2 2
=-2 j=1 nj ln( π bj ) −−−−→ χα,r −1 . On rejette H0 ssi LR > χα,r −1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 84 / 191
Test du khi-deux de Pearson sur la valeur de π

Dans le contexte d'un test sur les paramètres d'une loi multinomiale,

Pearson a proposé d'utiliser la statistique suivante :

(Nj −nπ0,j )2 asympt


χ2r −1
Pr
U= j=1 ( nπ0,j ) −−−−→

Il a prouvé que sous l'hypothèse nulle H0 : (π1 , . . . , πr ) = (π0,1 , . . . , π0,r ),


cette statistique suit asymptotiquement une loi du khi-deux à r −1 degrés

de liberté, tout comme la statistique du test de rapport de vraisemblance.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 85 / 191
Démonstration : On peut justier ce résultat de façon simple en considérant
qu'une loi binomiale peut être approximée par une loi Poisson sous certaines

conditions, d'où Nj ∼ P(λj ) avec λj = E [Nj ] = nπ0,j pour j = 1, . . . , r .


On sait que pour de grandes valeurs de λj , on peut supposer que
(Nj −λj ) (Nj −nπ0,j )
Zj = √ = √
nπ0,j suit une loi normale centrée réduite.
λj
Supposons pour l'instant que les r v.a. sont indépendantes. On aurait donc

la somme des Zj2 = U suit une loi asymptotique khi-deux à r degrés de

liberté. En réalité, les r v. a. ne sont pas indépendantes puisqu'elles sont


Pr
soumises à la contrainte j=1 Nj = n. On perd un degré de liberté à cause

de cette contrainte, qui représente la conversion de la loi Poisson à la loi

multinomiale.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 86 / 191
Exemple :

Le journal La Presse publiait un article de Denis Lessard présentant les

résultats d'un sondage sur les intentions de vote des Québécois. Les trois

principaux partis se partageant les intentions de vote étaient le Parti

Québécois (PQ), le Parti libéral du Québec (PLQ) et l'Action

démocratique du Québec (ADQ). Considérons ici uniquement ces partis.

Les intentions de vote se répartissaient ainsi :

Parti politique PQ PLQ ADQ total

Fréquence observée 264 264 238 766

Tester si les votes sont vraiment répartis uniformément entre les partis

politiques :

H0 : (π1 ; π2 ; π3 ) = (1/3; 1/3; 1/3) vs H1 : (π1 ; π2 ; π3 ) ̸= (1/3; 1/3; 1/3).


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 87 / 191
Exemple (Suite)

La statistique du test de rapport de vraisemblance prend la valeur suivante :

LRobs = −2(2 × 264 ln( 2641//766


3
) + 238 ln( 2381//3766 )) = 1.786

Le seuil observé de ce test est donc P(χ22 ≥ 1.786) = 0.40942.


Cette valeur est nettement plus grande que 0.05, on conclut donc au

non-rejet de H0 .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 88 / 191
Exemple (Suite)

La statistique du test du khi-deux de Pearson prend quant à elle la valeur

suivante :

(264−(766/3)) 238−(766/3)
Uobs = 2 × 766/3 + 766/3 = 1.765

Le seuil observé de ce test est donc P(χ22 ≥ 1.765) = 0.41375.


Cette valeur est aussi nettement plus grande que 0.05.

Les deux tests nous mènent donc à la conclusion que les votes sont

réellement répartis de façon uniforme entre les partis politiques.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 89 / 191
Chap 3 : Tableaux de fréquences à deux variables

Pour étudier le lien entre deux variables, il est bon de procéder en suivant

les étapes suivantes :

1 Visualiser les données : avec un tableau de fréquences à deux

variables et/ou des graphiques.

2 Tester l'association entre X et Y : on veut déterminer s'il existe un

lien entre les variables, on choisira le meilleur test en fonction du

caractère nominal ou ordinal des variables, de la taille de l'échantillon

et du nombre de modalités des variables.

3 Si elle est présente, décrire l'association : avec diérentes

statistiques et mesures d'association.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 90 / 191
Dénitions et outils descriptifs

Le contexte traité dans ce chapitre est celui où l'on étudie deux variables

catégoriques notées X et Y. Soit mX1 , . . . , mXI les modalités de la variable

X et mY1 , . . . , mYJ les modalités de Y. On possède un échantillon de n


observations indépendantes de ces deux variables. À partir de cet

échantillon, on calcule un certain nombre de fréquences, que l'on représente

dans un tableau comme suit :

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 91 / 191
Exemple d'emplacement de variables

Dans le cadre de l'Enquête Sociale Générale aux États-Unis, n = 980


personnes ont été interrogées à propos de leurs intentions de vote.

L'enquête a aussi permis d'identier le sexe des votons. On a donc deux

variables catégoriques nominales : X = le sexe d'une personne, soit mX1 =


 Femme , et mX2 =  Homme  et Y = le parti politique, soit mY1 = 

Démocrate , mY2 =  Indépendant  ou mY3 =  Républicain .

Si une des deux variables inuence l'autre ici, c'est certainement le sexe qui

inuence les intentions de vote, et non l'inverse. Ainsi, on dirait que la

variable réponse est Y, et la variable explicative est X. La variable X sera

donc placée en lignes dans le tableau de fréquences, et Y en colonnes.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 92 / 191
Fréquences croisées

Pour i = 1, . . . , I et j = 1, . . . , J , la fréquence nij est le nombre total

d'observations dans l'échantillon pour lesquelles la valeur de X est mXi et

la valeur de Y est mYj simultanément. Les nij sont ce que l'on appelle les
PI PJ
fréquences croisées. On a toujours la relation suivante : n= i=1 j=1 nij

où n est le nombre total d'observations dans l'échantillon. Ainsi, n.. est la


PJ PI
même chose que n. Les ni. = j=1 nij et n.j = i=1 nij représentent les

fréquences marginales.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 93 / 191
Fréquences conditionnelles

Les fréquences des modalités d'une variable en xant l'autre variable à une

certaine modalité sont appelées fréquences conditionnelles. Par exemple, les

fréquences de X sachant que Y =2 sont n12 à nI 2 .


Exemple :

Les fréquences des modalités des intentions de vote Y en conditionnant par

rapport au fait d'être une femme sont (n11 = 279; n12 = 73; n13 = 225),
soit la première ligne du tableau de fréquences croisées.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 94 / 191
Fréquences relatives

Les fréquences relatives croisées sont dénies par fij = nij /n pour

i = 1, . . . , I et j = 1, . . . , J . La somme de ces I ×J fréquences vaut 1.

Les fréquences relatives marginales se calculent par fi. = ni. /n et

f.j = n.j /n. La somme des I fréquences relatives de la marge verticale

vaut 1, tout comme la somme des J fréquences relatives de la marge

horizontale.

les fréquences relatives conditionnelles de X par rapport à Y sont

dénies par fi|j = nij /n.j pour une valeur de j xe. De façon similaire,

les fréquences relatives conditionnelles de Y par rapport à X sont

dénies par fj|i = nij /ni. pour une valeur de i xe.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 95 / 191
Exemple de fréquences relatives :

Les fréquences relatives croisées (fij pour i = 1, 2 et j = 1, 2, 3) et

marginales (fi. pour i = 1, 2 et f.j pour j = 1, 2, 3) sont les suivantes :

La somme de toutes les fréquences relatives croisées vaut 1 et la somme

des fréquences relatives dans chacune des marges vaut aussi 1.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 96 / 191
Exemple de fréquences relatives :

Les fréquences relatives conditionnelles à la valeur de X, le sexe, sont les

suivantes :

La fréquence relative f1|i=1 nous dit, par exemple, que 48.35% des femmes

de l'échantillon ont l'intention de voter démocrate. Ici, les fréquences

relatives de chaque ligne somment à 1, car ces fréquences sont calculées en

divisant les fréquences croisées par les fréquences dans la marge verticale.

Cette marge est celle de la variable X.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 97 / 191
Exemple de fréquences relatives :

Les fréquences relatives conditionnelles à la valeur de Y , les intentions de

vote, sont les suivantes :

Ici, les fréquences relatives de chaque colonne somment à 1, car ces

fréquences sont calculées en divisant les fréquences croisées par les

fréquences dans la marge horizontale. Cette marge est celle de la variable Y.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 98 / 191
Probabilités d'intérêt

Les probabilités en lien avec un tableau de fréquences à deux variables X et

Y sont les suivantes, pour i = 1, . . . , I et j = 1, . . . , J :

Probabilités conjointes :

πij = P(X = miX , Y = mjY )

Probabilités marginaless :

πi. = P(X = miX ) ; π.j = P(Y = mjY )

Probabilités conditionnelles :

πi|j = P(X = miX |Y = mjY ) ; πj|i = P(Y = mjY |X = miX )

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 99 / 191
Estimation des probabilités d'intérêt

Les πij sont facilement estimables si les données proviennent d'un

échantillonnage multinomial simple. Dans ce cas, le vecteur de toutes les

fréquences du tableau suit une loi multinomiale : [nij ] ∼ M(n, [πij ])


Probabilités conjointes :

nij
π
bij = n

Probabilités marginales :

ni. n.j
π
bi. = n ; π
b.j = n

Probabilités conditionnelles :

nij nij
π
bi|j = n. j ; π
bj|i = ni .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 100 / 191
Tests d'association entre deux variables nominales

La question principale d'intérêt lorsque l'on étudie conjointement 2

variables nominales X et Y est de savoir si X et Y sont associées.

De façon générale, on dira qu'il y a un lien ou une association entre deux

variables si modier la valeur d'une variable aecte la valeur de l'autre

variable. Le terme  association  est plutôt général.

Pour des variables catégoriques, si la fonction de densité d'une variable

varie conditionnellement à la valeur de l'autre variable, on peut dire que la

valeur d'une variable inuence la valeur de l'autre variable. Elles seraient

donc associées.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 101 / 191
Test d'indépendance et test d'homogénéité

Selon le mode d'échantillonnage, cette association entre X et Y est

représentée par diérentes hypothèses.

Échantillonnage multinomial simple : On suppose que les totaux

des lignes et colonnes du tableau de fréquences croisant X et Y ne sont

pas xés d'avance. Seul le total n est xé ici. On veut tester si X et Y sont

indépendantes.

=⇒ Ce type d'hypothèses requiert un test d'indépendance.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 102 / 191
Exemple

Lors d'une étude, 32574 femmes enceintes ont été suivies pendant leur

grossesse. Par un questionnaire, leur consommation d'alcool pendant le

premier trimestre de leur grossesse a été évaluée. Après la naissance des

enfants, des médecins ont vérié si ceux-ci présentaient des malformations.

Question : Les mères qui consomment de l'alcool durant la grossesse


augmentent-elles le risque de malformations de leurs enfants ?

Variable réponse Y : présence de malformations chez l'enfant à la naissance.


Variable explicative X : nombre moyen de verres d'alcool consommés par

jour par la mère.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 103 / 191
Exemple

Les observations recueillies sont les suivantes :

Pour répondre à la question, on pourrait d'abord tester l'association entre

les variables.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 104 / 191
Test d'indépendance et test d'homogénéité

Échantillonnage multinomial multiple : Supposons que

l'échantillonnage multiple a été eectué en stratiant selon la valeur de la

variable X. On considère donc que chaque valeur de X correspond à une

sous-population, c'est-à-dire que les totaux des rangées (les ni.) sont xes.

On veut tester si la distribution des valeurs de Y est la même ( homogène )


dans chacune des I sous-populations de X.

=⇒ Ce type d'hypothèses requiert un test d'homogénéité.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 105 / 191
Exemple

Une étude à propos de la relation entre la prise quotidienne d'aspirine et

l'infarctus du myocarde a été menée à l'école de médecine de l'Université

Harvard. Au total, 22071 médecins américains ont participé à l'étude, d'une

durée de 5 ans. Les participants ont été attribués de façon aléatoire, en

nombres presque égaux, à l'un des deux groupes d'exposition au facteur de

risque : ceux qui prennent de l'aspirine quotidiennement et ceux qui n'en

prennent pas. Pendant l'étude, tous les médecins devaient prendre une

pilule par jour sans savoir s'il s'agissait d'une aspirine ou d'un placebo. On

a observé si les participants ont été victimes ou non d'un infarctus pendant

l'étude.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 106 / 191
Exemple

Voici les résultats obtenus :

Ici, la variable explicative X est la prise quotidienne d'aspirine ou non. La

variable réponse Y est la survenue ou non d'un infarctus. L'échantillonnage

est multiple, avec des sous-populations formées conditionnellement à la

variable explicative X.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 107 / 191
Dénition des concepts d'indépendance et d'homogénéité

En termes statistiques, dire que les variables aléatoires discrètes X et Y


sont indépendantes signie que :

πij = πi. × π.j pour tous i = 1, . . . , I et j = 1, . . . , J .

L'homogénéité des I sous-populations de X signie que les I fonctions de

masse conditionnelles de Y sachant X sont toutes égales. Ainsi,

l'homogénéité des populations signie que :

(π1|i=1 ; π2|i=1 , . . . , πJ|i=1 ) = . . . = (π1|i=I ; π2|i=I , . . . , πJ|i=I ).

Cette dénition correspond à :

πj|i = πj|i ′ pour toute paire ´ = 1, . . . , I


(i, i) et pour tout j = 1, . . . , J .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 108 / 191
Lien entre les concepts d'indépendance et d'homogénéité

Les concepts d'indép. et d'homog. sont en fait équivalents, on a que :

indépendance ⇒ homogénéité :

Par dénition des probabilités conditionnelles, on a que :

P(X = miX ; Y = mjY ) = P(Y = mjY |X = miX )P(X = miX ) :

Si X et Y sont indépendantes, on a donc :

P(Y = mjY |X = miX )P(X = miX ) = P(Y = mjY )P(X = miX )


P(Y = mjY |X = miX ) = P(Y = mjY )

Si les probabilités conditionnelles sont toutes égales aux probabilités

marginales, alors elles sont toutes égales entre elles.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 109 / 191
homogénéité ⇒ indépendance :

Par la loi des probabilités totales, on a :

PI
P(Y = mjY ) = i=1 P(Y = mjY |X = miX )P(X = miX )

Sous l'hypothèse que les I sous-populations formées par X sont

homogènes, tous les P(Y = mjY |X = miX ) sont égaux. Notons

P(Y = mjY |Xquelconque) la valeur commune de ces probabilités

conditionnelles. On a donc maintenant :


I
X
P(Y = mjY ) = P(Y = mjY |Xquelconque)P(X = miX )
i=1
I
X
= P(Y = mjY |Xquelconque) P(X = miX )
i=1

= P(Y = mjY |Xquelconque)


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 110 / 191
Lien entre les concepts d'indépendance et d'homogénéité

Remarque :

Ainsi, si les vecteurs de probabilités conditionnelles sont tous égaux entre

eux, ils sont forcément égaux au vecteur de probabilités marginales de Y.


En conséquence, P(Y = mjY |X = miX ) = P(Y = mjY ) pour tous

i = 1, . . . , I et j = 1, . . . , J , ce qui signie que X et Y sont indépendants.

Mathématiquement, il s'agit donc du même concept. On utilisera les

mêmes statistiques de test pour eectuer ces deux types de test,

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 111 / 191
Formulation des hypothèses des tests

Test d'indépendance :

H0 : X et Y sont indépendants ou

πij = πi. π.j ∀i, j


H1 : X et Y ne sont pas indépendants ou

πij ̸= πi. π.j pour au moins un couple (i, j)

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 112 / 191
Formulation des hypothèses des tests

Test d'homogénéité de sous-populations :

H0 : Dans les I sous-populations déterminées par X;


Y suit la même distribution ou

πj|i = πj|i ′ ∀i ̸= i , j ou

πj|i = π.j ∀i, j


H1 : Y ne suit pas la même distribution

dans les I sous-populations déterminées par X ou



πj|i ̸= πj|i ′ pour au moins un couple (i, i ) ou

πj|i ̸= π.j pour au moins un couple (i, j)

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 113 / 191
Construction des statistiques de test

Pour eectuer ces tests, nous allons utiliser les statistiques LR et U. Ici, on

a I ×J classes, les fréquences observées sont notées nij et les fréquences

espérées sous l'hypothèse nulle H0 doivent être estimées et sont notées ebij .

Les statistiques sont donc maintenant notées comme suit :

Statistique du khi-deux de Pearson :

PI PJ (nij −b eij )2
U= i=1 j=1 ebij

Statistique du rapport de vraisemblance :

PI PJ n
LR = 2 i=1 j=1 nij ln( ebijij )

Ces statistiques suivent, lorsque les fréquences du tableau sont grandes,

une loi du khi-deux.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 114 / 191
Construction des statistiques de test

Rappelons que le nbre de ddl de cette khi-deux, notés d, sont dénis par :

d = dim de l'espace des paramètres - dim de l'espace des paramètres ss H0 ;


Test d'indépendance :

Ici, on est dans le cas d'un échantillonnage multinomial simple, donc les

paramètres sont les probabilités πij . La dimension de l'espace des

paramètres est égale IJ − 1. Les paramètres libres sous H0 sont les πi. et les

π.j . Ces paramètres sont au nombre de I + J . Cependant, elles doivent


PI PJ
respecter les contraintes i=1 πi. et j=1 π.j . On se retrouve donc avec

I +J −2 paramètres libres sous H0 . Ainsi,

d = (IJ − 1) − (I + J − 2) = IJ − I − J + 1 = (I − 1)(J − 1)
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 115 / 191
Construction des statistiques de test

Test d'homogénéité de sous-populations :

Ici, à cause de l'échantillonnage multinomial multiple, les vecteurs

(ni 1 , . . . , niJ ) sont considérés indépendants et suivent une distribution

M(ni ; π1|i , . . . , πJ|i ). La dimension de l'espace des paramètres est égale au

nombre total de probabilités πj|i moins I parce que chacun de vecteurs

(π1|i , . . . , πJ|i ) est soumis à la contrainte que la somme de ses éléments

vaille 1. Sous H0 , tous les vecteurs (π1|i , . . . , πJ|i ) sont égaux aux

probabilités marginales (π.1 , . . . , π.J ), aussi soumises à la meme contrainte.

La dimension de l'espace des paramètres sous H0 est donc J − 1. Ainsi,

d = (IJ − I ) − (J − 1) = I (J − 1) − (J − 1) = (I − 1)(J − 1).


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 116 / 191
Construction des statistiques de test

Voyons maintenant comment estimer les fréquences espérées sous

l'hypothèse nulle formulée.

Test d'indépendance :

eij = nπij = nπi. π.j par indépendance sous H0

On estime donc les fréquences espérées par :

n.j ni. n.j


ebij = nb b.j = n( nni. )(
πi. π n ) = n

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 117 / 191
Construction des statistiques de test

Test d'homogénéité de sous-populations :

eij = ni πi|j où ni est xe à cause de l'échantillonnage multiple

= ni π.j par homogénéité des sous-populations sous H0

On estime donc les fréquences espérées par :

n.j ni n.j
ebij = ni π
b.j = ni ( n ) = n

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 118 / 191
Construction des statistiques de test

On notera les statistiques de test, peu importe que l'on mène un test

d'indépendance ou d'homogénéité des populations, par :

PI PJ (nij −ni. n.j /n)2


U= i=1 j=1 ni. n.j /n

PI PJ n
LR = 2 i=1 j=1 nij ln( ni. n.jij /n )

Les statistiques U et LR suivent asymptotiquement une distribution

χ2(I −1)(J−1) . Ainsi, au seuil α , H0 est rejetée si les valeurs observées de ces

statistiques sont grandes, c'est-à-dire si Uobs > χ2α,(I −1)(J−1) ou

LRobs > χ2α,(I −1)(J−1) .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 119 / 191
Exemple de test d'association

Dans l'exemple des intentions de vote selon le sexe, l'échantillonnage était

multinomial simple. Pourtant, pour tester l'association entre X, le sexe, et

Y, l'intention de vote, il est plus naturel de faire un test d'homogénéité de

sous-populations qu'un test d'indépendance. Un test d'indépendance

répondrait à une question de recherche formulée ainsi :

−→ Aux États-Unis, y a-t-il un lien entre le sexe d'une personne et le parti

politique pour lequel elle a l'intention de voter ?

ou encore,

−→ Aux États-Unis, les intentions de vote dièrent-elles entre les hommes

et les femmes ?

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 120 / 191
Construction des statistiques de test

Cette question de recherche mène à la formulation d'une hypothèse

d'homogénéité des sous-populations :

H0 : Les intentions de vote sont les mêmes pour les hommes et les femmes

(π1|1 , π2|1 , π3|1 ) = (π1|2 , π2|2 , π3|2 )

H1 : Les intentions de vote dièrent entre les hommes et les femmes

(π1|1 , π2|1 , π3|1 ) ̸= (π1|2 , π2|2 , π3|2 )

Pour calculer les statistiques U et LR , nous devons estimer les fréquences


ni. n.j
espérées sous l'hypothèse d'indépendance comme suit : ebij = n , par

exemple : eb11 = (444 × 577)/980 = 261, 4


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 121 / 191
Construction des statistiques de test

Les valeurs suivantes entrent dans nos calculs :

Résultats : U = 7, 01 et LR = 7, 00. Sous H0 , ces statistiques suivent

une χ2 à (I − 1)(J − 1) = (2 − 1)(3 − 1) = 2 ddl. Ainsi, le seuil observé est

P(χ22 ≥ 7) = 0, 03 ≤ 0.05
Conclusion : Nous rejetons H0 au seuil 5%. Il y a des diérences entre les

intentions de vote des hommes et celles des femmes.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 122 / 191
Remarques :

On a présenté deux types de test d'association, on a cependant

constaté que le test d'indépendance (motivé par l'échantillonnage

multinomial simple) et le test d'homogénéité (motivé par

l'échantillonnage multinomial multiple) sont, à un détail près,

mathématiquement équivalents.

Il est intéressant de formuler le test d'association en terme

d'homogénéité de populations lorsque l'on soupçonne un lien de

causalité entre les variables. Dans ce cas, on tend intuitivement à

étiqueter l'une des variables comme étant explicative et l'autre comme

étant une variable réponse.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 123 / 191
Remarques :

Les conditions d'application sont très contraignantes : Un eectif total

n ≥ 50 et des fréquences d'apparition toutes ≥ 5.


Dans le livre de J. Bouyer, ainsi que dans celui de G.Pupion et P.-C.

Pupion, il est indiqué que le test est encore utilisable si les eectifs

théoriques sont tous supérieurs à 3.

J. Bouyer, évoque même la possibilité de se contenter du fait qu'il y

ait moins de 20% des cellules pour lesquelles les eectifs théoriques

soient inférieurs à 5.

Lorsque les conditions ne sont pas remplies, il existe des corrections,

par exemple celle de Yates ou les tests exacts de Fisher présentés

ci-après.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 124 / 191
Exemple de test d'association

on s'intéresse au nombre d'enfants (S) issus d'un père en fonction du

nombre de frères et s÷urs (R) qu'il y a dans la famille. Peut-on dire que R

et S sont indépendantes ?

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 125 / 191
Cas particulier des tableaux 2 × 2

Un tableau de fréquences 2 ×2 est celui pour lequel les variables X et Y


n'ont que 2 modalités possibles. C'est donc un cas particulier des tableaux

I ×J lorsque I =2 et J = 2. Un tableau 2 ×2 a la forme suivante :

n(n11 n22 −n12 n21 )2


Montrer que U= n1. n2. n.1 n.2

Rq : Ici, les degrés de liberté de la distribution asymptotique de U valent 1,

car (I − 1) × (J − 1) = 1 × 1 = 1.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 126 / 191
Exemple de test d'association pour un tableau 2 × 2 :

Rappelons que les données sont les suivantes :

Dans cette étude, la question de recherche était la suivante :

−→ Est-ce que l'aspirine réduit les risques d'infarctus ?


ou encore :

−→ Est-ce que le risque d'infarctus dière entre ceux qui ont pris
quotidiennement de l'aspirine et ceux qui n'en ont pas pris ?
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 127 / 191
Exemple de test d'association pour un tableau 2 × 2 :

Les hypothèses du test sont :

H0 : (π1|i=1 , π2|i=1 ) = (π1|i=2 , π2|i=2 )


H1 : (π1|i=1 , π2|i=1 ) ̸= (π1|i=2 , π2|i=2 )

22071(239×10898−10795×139)2
Uobs = 11034×11037×378×21693 = 26.9437.

On a Uobs ≻ χ20.05,1 = 3.84. On rejette donc l'hypothèse nulle. Il y a une

grande diérence de risque d'infarctus entre ceux qui prennent

quotidiennement de l'aspirine et ceux qui n'en prennent pas.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 128 / 191
Comparaisons de deux proportions :

Rapport de côtes (odds ratio) :

Pour une proba de succès π, la côte est dénie par

π
Ω=
1−π

Quand Ω > 1, un succès est plus probable qu'un échec.

πi
Considérons les tables 2x2. Pour la ligne i, la côte est Ωi = 1−πi .
Le rapport des côtes est déni par :

π1
Ω1 1−π1
θ= = π2
Ω2 1−π2

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 129 / 191
Comparaisons de deux proportions :

Dans le cas de distribution jointes pour (X, Y ), le rapport des côtes est

déni par :
π11
1−π12 π11 π22
θ= π21 =
1−π22 π12 π21
Pour une table de contingence contenant des fréquences, l'estimation de

l'odd-ratio est :
n11 n22
θb =
n12 n21
.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 130 / 191
Exemple Aspirine et infarctus : Parmi les 11034 médecins prenant le

239
placebo, 239 ont eu un infarctus, soit une proportion de
11034 = 0.022.
Parmi ceux prenant de l'aspirine, la proportion est de 139/11037 = 0.012.
La diérence des proportions est de 0.022 − 0.012 = 0.01, et le risque

relatif est 0.022/0.012 = 1.83.


La proportion d'infarctus chez ceux prenant un placebo est 1.83 fois la

proportion chez ceux prenant de l'aspirine.

L'estimation des odds ratio est (239 × 10898)/(10795 × 139) = 1.73.


La côte (odds) d'un infarctus pour ceux prenant un placebo est 1.73 fois la

côte pour ceux prenant de l'aspirine.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 131 / 191
L'Odds Ratio comme mesure d'association : L'OR s'interprète comme

une mesure d'association. S'il est supérieur à 1 la relation est croissante, et

décroissante s'il est inférieur à 1. Lorsqu'il est égal à 1 il n'y a pas

d'association. La valeur de l'odds ratio indique la direction ainsi que la

force de l'association.

L'Odds Ratio comme mesure du risque relatif (RR) :

1 − π2
oddsratio = relativerisks( )
1 − π1

Lorsque la prévalence de l'événement à expliquer est faible (π1 et π2 sont

petites), l'odds ratio fournit une approximation du risque relatif. C'est le

cas de l'exemple "aspirine et infarctus" où le risque relatif (1.83) et

l'odds-ration (1.73) sont très proches.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 132 / 191
Propriétés du rapport de côtes :

On a θ>0 avec θ=1 correspondant à l'indépendance de X et Y .


Lorsque 1 < θ < ∞, les sujets de la ligne 1 ont un succès plus

probable que ceux de la ligne 2 (π1 > π2 ).

Si θ = 4, la côte (odds) de succès est 4 fois plus grande pour la ligne

1 que pour la ligne 2. Cela ne veut pas dire que π1 = 4π2 , qui

correspond à l'interprétation d'un "risque relatif" égal à 4.

Il est souvent plus pratique d'étudier log θ. L'indépendance correspond

à log θ = 0, et le log odd ratios est symétrique par rapport à cette

valeur. Deux valeurs identiques de log θ mais de signes opposés ont la

même force d'association (exemple log 4 = 1.39 et log 0.25 = −1.39).

L'odd ratio ne change pas lorsqu'on change l'orientation de la table.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 133 / 191
Test de comparaison de deux proportions

Pour un tableau 2 × 2, l'hypothèse nulle du test d'homogénéité des deux

sous-populations formées par la variable X s'écrit :

H0 : (π1|i=1 , π2|i=1 ) = (π1|i=2 , π2|i=2 ).

Puisque π1|i + π2|i = 1 pour i = 1, 2, cette hypothèse est équivalente à :

H0 : π1|i=1 = π1|i=2 .

Le modèle statistique de l'échantillonnage multinomial multiple revient à

dire qu'on a 2 v. a. binomiales indépendantes. On a donc :

n11 ∼ Bin(n1 = n1. , π1 = π1|i=1 ) nbre de succès dans la 1 ere population

n21 ∼ Bin(n2 = n2. , π2 = π1|i=2 ) nbre de succès dans la 2 eme population

Avec π
b1 = n11 /n1 et π
b2 = n21 /n2 .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 134 / 191
Test de Wald de comparaison de deux proportions

La statistique du test de Wald de comparaison de deux proportions est la

suivante (Agresti, 2002) :

b1 −b
π π2 asympt
Zw = r −−−−→ N(0, 1)
b1 (1−π
π b (1−π
b1 ) π b )
n1
+ 2 n 2
2

où π
bi = ni 1 /ni pour i = 1, 2.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 135 / 191
Exemple de test de Wald

An de répondre à la question  Est-ce que l'aspirine réduit les risques

d'infarctus ? , nous pouvons tester l'égalité des proportions :

π1 = π1|i=1 = P(infarctus | placebo) et

π2 = π1|i=2 = P(infarctus | aspirine)

contre une hypothèse alternative unilatérale à droite :

H0 : π1 = π2 , l'aspirine n'a pas d'eet

H1 : π1 > π2 , l'aspirine réduit le risque d'infarctus.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 136 / 191
Exemple de test de Wald

La statistique du test de Wald pour confronter ces hypothèses prend la

valeur observée suivante :

0.02166−0.01259
Zw = q
0.02166(1−0.02166) 0.01259(1−0.01259)
= 5.193717.
11304
+ 11307

Cette valeur est beaucoup plus grande que la valeur critique du test :

z0.05 = 1.645. On peut donc encore conclure que l'aspirine réduit les

risques d'infarctus.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 137 / 191
Test score de comparaison de deux proportions

Le test de comparaison de proportions le plus souvent présenté dans un

cours d'introduction à la statistique (Hines et al. (2012), Agresti (2002))

est le test score se basant sur la statistique suivante :

b1 −b
π π2 asympt
Zs = q
1 1
−−−−→ N(0, 1)
πb(1−bπ )( n + n )
1 2

n1 π
b1 +n2 π
b2 n11 +n21
où π
bi = ni 1 /ni pour i = 1, 2 et π= n1 +n2 = n1 +n2 est utilisé pour

calculer une variance groupée.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 138 / 191
Exemple de test score

Une statistique similaire à la statistique de Wald que l'on vient de calculer

est la statistique score suivante :

Zs = q 0.02166−0.01259 = 5.190729
1 1
b(1−b
π π )( 11304 + 11307 )

11304×0.02166+11307×0.01259 378
car π
b= 11304+11307 = 22071 = 0.01712655.
La valeur observée de la statistique du test score zs = 5.190729 est très

proche, mais pas tout à fait égale à celle de la statistique du test de Wald

zw = 5.193717. Remarquez qu'en élevant au carré zs , on retombe

exactement sur la statistique


2
Uobs de Pearson

2
(zs = 5.1907292 = 26.94367 = Uobs
2 ).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 139 / 191
Petits échantillons : test de Fisher

Tous les tests vus jusqu'à maintenant pour un tableau de fréquences à deux

variables sont asymptotiques. Les distributions sous H0 de leurs statistiques

de test sont donc valides à la condition que n (ou encore les ni ou les nj )
soit assez grand. Dans le cas de petits échantillons, voici les solutions qui

s'orent à nous.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 140 / 191
Correction de Yates :

Lorsque l'on étudie l'indépendance de deux variables et que certaines des

fréquences attendues sous l'hypothèse nulle H0 :  X et Y sont

indépendantes  sont inférieures à 5, on peut corriger la statistique du test

pour prendre en compte cette situation.

Attention il faut néanmoins que toutes les fréquences attendues soient

supérieures à 3.

La correction de Yates est une correction de continuité qui consiste à

utiliser la statistique de test modiée de la manière suivante.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 141 / 191
Correction de Yates : pour la continuité de la statistique de
Pearson

Ajouter une correction pour la continuité à la formule de la statistique χ2


de Pearson améliore la validité de la loi asymptotique dans le cas de

fréquences faibles. Avec une telle correction, la statistique devient :

PI PJ eij |−0.5)2
(|nij −b
U= i=1 j=1 ebij

ni. n.j
où |.| représente la valeur absolue et ebij = n .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 142 / 191
Correction de Yates : tableau 2 × 2

Dans le cas particulier d'un tableau 2 × 2, la formule de la valeur observée

de cette statistique se simplie à :

n(n11 n22 −n12 n21 − 2n )2


U= n1. n2. n.1 n.2

Tout comme c'était le cas pour χ2 , sous H0 (indépendance entre les deux

variables du tableau), U suit asymptotiquement une χ2(I −1)(J−1) .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 143 / 191
Remarques :

Attention, on n'utilisera la correction que si l'une des fréquences

attendues est strictement inférieure à 5.

Si au contraire elles sont toutes supérieures ou égales à 5, on montre

que la correction de Yates ne modie que peu la valeur de la

réalisation de la statistique du test.

Si l'un des eectifs théoriques est inférieur à 3, on n'a pas d'autre

solution que d'appliquer le test exact de Fisher décrit ci-après.

Plus généralement, P. Dagnélie, conseille l'utilisation systématique du

test exact de Fisher lorsque l'eectif total n est inférieur ou égal à 40.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 144 / 191
Test exact de Fisher pour un tableau 2 × 2

Ce test permet de tester si deux variables dichotomiques X et Y sont

dépendantes. La statistique du test est simplement n11 , soit la fréquence

théorique que X = m1X et Y = m1Y simultanément. En postulant que les

fréquences des deux marges sont xes, on peut trouver la loi exacte de n11
sous l'hypothèse d'indépendance entre X et Y . Il s'agit d'une distribution

hypergéométrique.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 145 / 191
contexte de la loi hypergéométrique : Notons que l'expérience qui permet

de construire la distribution hypergéométrique est semblable à une

expérience binomiale. En eet, elle se compose de a essais (tirages), qui

ont chacun 2 résultats possibles : blanc (succès) ou noir (échec).

Cependant, dans une expérience binomiale, les essais sont indépendants,

comme s'il s'agissait de tirages avec remise. Ainsi, la probabilité de succès

(tirer une boule blanche) est toujours la même. Cependant, si les tirages

sont eectués sans remise, les essais ne sont pas indépendants. La

probabilité d'obtenir blanc comme résultat dépend des essais précédents.

Puisque les balles ne sont pas remises dans l'urne après chaque tirage, la

probabilité d'obtenir une boule blanche à un tirage est plus faible si tous les

tirages précédents ont donné des boules blanches.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 146 / 191
Exemple : Loi hypergéométrique

Soit deux variables : X = la couleur des boules et Y = l'état tirée ou non

tirée des boules. La variable à laquelle on s'intéresse ici (la statistique du

test de Fisher) est n11 , soit le nombre de boules blanches parmi les boules

tirées. On obtient le tableau suivant :

Le nombre de boules tirées (paramètre hypergéométrique a) vaut donc n .1 ,


le nombre de boules blanches (paramètre hypergéométriqueb ), vaut n1. et

le nombre total de boules (paramètre hypergéométrique c) vaut n.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 147 / 191
Test exact de Fisher pour un tableau 2 × 2

Formulation des hypothèses du test de Fisher : Un test de Fisher peut

être bilatéral ou unilatéral.

L'hypothèse nulle est H0 : X et Y sont indépendantes.

L'hypothèse alternative H1 peut être l'une des suivantes :

X et Y ne sont pas indépendantes

n11 est plus petit qu'attendu sous indépendance

n11 est plus grand qu'attendu sous indépendance

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 148 / 191
Test exact de Fisher

Distribution sous H0 de la statistique du test de Fisher : Sous H0 : X


et Y sont indépendantes, la loi conditionnelle de n11 étant donné que les

fréquences sont xes dans les deux marges est la distribution

hypergéométrique de paramètres a = n.1 ; b = n1. ; c = n. Ainsi, on a :

n −w
Cnw1. Cn2.1.
P(n11 = w |H0 , n.1 , n1. et n) = n
Cn .1

pour w∈ [max(0,n.1 + n1. − n) ≤ w ≤ min(n.1 , n1. )]

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 149 / 191
Test exacte de Fisher (Logique et Procédure) : Soit une table de

contingence 2x 2, où les cellules de fréquences sont représentées par

a, b, c, d , et les totaux marginaux sont représentées par a + b, c + d , a + c ,


b+d et n.
0 1 Total

0 a b a+b

1 c d c+d

Total a+c b+d n

Si les totaux marginaux sont xés, la probabilité de cette conguration est

donnée, sous l'hypothèse nulle d'absence d'association par la loi

hypergéométrique

a Cc
Ca+b c+d (a+b)!(c+d)!(a+c)!(b+d)!
Cna+c
= a!b!c!d!n!

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 150 / 191
Test exacte de Fisher

Pour n'importe quelle rangée de fréquences, on calcul la probabilité de

cette ligne particulière de fréquence plus les probabilités de tous les

arrangements possibles dont la diérence est égale ou supérieure à celui

observé. Par exemple,

X Y Total

Z 2 7 9

T 8 2 10

Total 10 9 19

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 151 / 191
La probabilité unilatérale sera la somme des probabilités des arrangements

suivants

La somme de ces probabilités fournit la probabilité totale de rejeter à tort

H0 , c'est à dire la probabilité d'obtenir, entre les 2 groupes, un écart dans

la répartition des 2 modalités, supérieur ou égal à celui observé. Le test

bilatéral de niveau α conduit alors au rejet de l'hypothèse nulle H0 quand

la probabilité totale calculée par la méthode ci-dessus est inférieure ou

égale à α.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 152 / 191
Exemple
Exemple :Test exact de Fisher On présente à un expert en huiles, 10
bouteilles d'huile dans un ordre aléatoire dont 4 bouteilles proviennent
de la région d'Ouazzane et 6 de la région de Souss. Après dégustation il
doivent
XXX
identier l'origine de l'huile.
XXX Etiquette
XX XXX Ouazzane Souss Total
Origine réelle XXX
XX
X
Ouazzane 3 1 4
Souss 1 5 6
Total 4 6 10
On veut tester l'hypothèse de non association de l'identication donnée
par l'expert et l'origine de l'huile. △

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 153 / 191
Exemple :Test exact de Fisher

C43 C61
P(n11 = 3) = C104 = 0.114
4 0
C4 C6
P(n11 = 4) = C104 = 0.005
P(n11 ≥ 3) = P(n11 = 3) + P(n11 = 4) = 0.119 > 0.05

On ne rejette pas H0

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 154 / 191
Sensibilité, spécicité et matrice de confusion :

On dénit la sensibilité et la spécicité d'un examen diagnostic comme suit :


Sensibilité : probabilité d'obtenir un résultat positif pour un sujet malade

= P(X = Positif /Y = Malade)

Spécicité : probabilité d'obtenir un résultat négatif pour un sujet sain

= P(X = Negatif /Y = Sain)


PP
PP Y réel
PP + (M) - (S)
X test
PP
PP
P
+ (M) n11 =VP n12 =FP
- (S) n21 =FN n22 =FN

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 155 / 191
Sensibilité et spécicité :

Ce sont les deux mesures courantes de la abilité d'un examen diagnostic.

À partir des données recueillies, on estime ces mesures par :

estimation de la sensibilité : VP/(VP + FN) ;

estimation de la spécicité : VN/(VN + FP).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 156 / 191
Chap 4 : Tableaux de fréquences à trois variables

Dans ce chapitre, on s'intéresse encore au lien entre deux variables

catégoriques X et Y. La nouveauté par rapport au précédent est que l'on

va maintenant tenir compte d'une troisième variable catégorique, notée Z.


Cette variable est peut-être liée à X et Y, mais on ne s'intéresse pas

vraiment à ces liens. On cherche plutôt à étudier le lien entre X et Y en

corrigeant pour l'eet confondant potentiel de Z sur ce lien.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 157 / 191
Tableaux de fréquences à trois variables

Un tableau de fréquences à trois variables est en fait représenté par une

série de tableaux de fréquences à deux variables, soit un tableau pour

chacune des modalités de la troisième variable, notée Z. Les modalités de

cette variable seront notées mkZ avec k = 1, . . . , K .

Dans ces tableaux, nijk représente le nombre d'individus dans l'échantillon


PI PJ
pour lesquels X = miX , Y = mjY et Z = mkZ . Ainsi, n..k = i=1 j=1 nijk

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 158 / 191
Tableaux de fréquences à trois variables

Ces données se présentent sous forme d'un tableau de contingence croisant

ces trois variables de terme général nijk .


On s'intéresse aux relations existant entre ces trois variables : sont-elles

indépendantes ou non dans leur ensemble ou une variable est-elle

indépendante conditionnellement à une ou aux deux autres ? Autrement

dit, on cherche à connaître la structure des liaisons entre ces données en

tenant compte des interactions entre les 3 variables.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 159 / 191
Exemple de tableaux de fréquences à trois variables

Aux États-Unis, le Département de Transport demande aux compagnies

aériennes de recueillir les données concernant les vols d'avions qu'ils

orent. Parmi les informations recueillies, pour 11 000 vols d'avions on

retrouve, les variables suivantes : X : le nom de la compagnie aérienne ; Y :

une indicatrice de départ en retard pour le vol ; Z : la ville de l'aéroport.

Deux compagnies aériennes seront à l'étude : Alaska et America West

Airlines. Les vols d'avions considérés partaient de 5 villes : Los Angeles,

Phoenix, San Diego, San Francisco ou Seattle.

Question : Est-ce qu'il y a une diérence entre les compagnies aériennes en

ce qui concerne le respect des heures de départ prévues de leurs vols ?

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 160 / 191
Exemple de tableaux de fréquences à trois variables

Voici les tableaux conditionnels de fréquences observées pour cet exemple :

Il s'agit de 5 tableaux de fréquences croisées entre X et Y , conditionnels à

la valeur de Z.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 161 / 191
Deux critères X et Y sont indépendants ssi

P(Xi , Yj ) = P(Xi )(Yj ), on note Pij = Pi Pj , ∀i, j

Trois critères X, Y et Z sont indépendant, X ⊥Y ⊥Z ssi

P(Xi ∩ Yj ∩ Zk ) = P(Xi )P(Yj )P(Zk ), on note Pi,j,k = Pi Pj Pk , ∀i, j, k

X est partiellement indépendant du couple (Y , Z ), X ⊥(Y , Z ) ssi

P(Xi ∩ Yj ∩ Zk ) = P(Xi )P(Yj ∩ Zk ),on note Pi,j,k = Pi.. P.jk , ∀i, j, k

X et Y sont indépendants conditionnellement à Z , (X ⊥Y )/Z ssi

P(Xi ∩ Yj /Zk ) = P(Xi /Zk )P(Yj /Zk ), ∀i, j, k


ou encore Pij./k = Pi../k P.j./k
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 162 / 191
Relations entre les types d'indépendances

1

 X ⊥(Y , Z )
X ⊥Y ⊥Z ⇔
 Y ⊥Z

2
 
 X ⊥Y  X ⊥Z
X ⊥(Y , Z ) ⇔ ⇔
 X ⊥Z /Y  X ⊥Y /Z

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 162 / 191
Test d'indépendance

Pour tester l'indépendance entre 3 variables, soit la statistique de test du

khi-deux de Pearson, dénie par :

eijk )2
∼ χ2ddl
PI PJ PK (nijk −b
U= i=1 j=1 k=1 ebijk

On test les hypothèses :

H0 : Pijk = Pi.. P.j. P..k vs H1 : Pijk ̸= Pi.. P.j. P..k

Hypothèses ebijk = nb
pijk ddl de χ2ddl
Ni.. N.j. N..k
X ⊥Y ⊥Z n2
IJK − I − J − K + 2
Ni.. N.jk
X ⊥(Y , Z ) n (I − 1)(Jk − 1)
Ni.k N.jk
(X ⊥Y )/Z N..k (I − 1)(J − 1)k
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 163 / 191
Exemple

Une enquête réalisée auprès de 105 étudiants sur les raisons d'échec selon 3

critères : A : dicultés dans l'apprentissage, M : manque de motivation et

Q : manque de maturité.

Peut-on supposé l'indépendance de ces trois critères ?

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 164 / 191
Exemple

Pour 188 personnes classées selon leur taux de cholestérol (R ;

R1 :Normale, R2 : élevée) leur pression sanguine (S ; S1 :Normale, S2 :

élevée ) et leur type de personnalité (T ; T1 : stressé, T2 : non stressé).

Peut-on supposé l'indépendance conditionnelle de R et S par rapport à T ?

H0 : Pij./k = Pi../k × P.j./k vs H1 : Pij./k ̸= Pi../k × P.j./k


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 165 / 191
Chap 5 : Modèles log-linéaires

Le principe général de l'analyse log-linéaire est proche de celui de l'analyse

de variance, en ce qu'elle permet de tester des eets de modalités de

variables et d'interactions entre des modalités de deux ou plusieurs

variables, mais elle en dière aussi fondamentalement, puisque ce ne sont

pas des moyennes de variables qui sont prises en compte, mais des eectifs.

Le point de départ est toujours un tableau de contingence, à deux ou

plusieurs critères. Ce qu'on va expliquer, c'est l'eectif de chaque cellule.

Deux aspects principaux se partagent l'attention de l'utilisateur : les tests

de signication, et la modélisation.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 166 / 191
Modèles log-linéaires

Les modèles log-linéaires permettent d'étudier et de modéliser les liaisons

entre plusieurs variables nominales en tenant compte de leurs éventuelles

interactions. Celui-ci a la particularité de ne pas nécessiter, a priori, de

distinction entre la variable à expliquer et les variables explicatives. Pour

cela, on ne parlera pas d'un modèle de régression, mais d'un modèle

d'association.

Soit nijk les eectifs observés de la table de contingence. La modélisation

log-linéaire vise à exprimer le logarithme de ces valeurs par une somme

d'eets propres et d'interactions d'ordre 2 ou supérieur des variables.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 167 / 191
Modèles à 2 variables

Soit une table de contingence (I × J) issue du croisement de deux variables

qualitatives X à I modalités et Y à J modalités et dont l'eectif total n est

xé.

La loi conjointe des eectifs nij de chaque cellule est une loi multinomiale

de paramètre πij nij ∼ M(n, πij ) et d'espérance :

eij = E (nij ) = nπij

Par dénition, les variables X et Y sont indépendantes si et seulement si :

πij = πi. π.j

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 168 / 191
Modèles à 2 variables

le modèle log-linéaire décompose le logarithme népérien de l'espérance eij


sous la forme :

ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) = µ + αi + βj

Le modèle se décompose en une somme de coecients décrivant plusieurs

eets :

µ, l'eet global ;

αi , l'eet dû à la variable X,

βj , l'eet dû à la variable Y,

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 169 / 191
Modèles à 2 variables

Si l'indépendance n'est pas vériée, on peut décomposer :

π
eij = nπij = nπi. π.j πi. πij .j

L'intervention de la fonction logarithme permet de linéariser la

décomposition précédente autour du modèle d'indépendance :

π
ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) + ln( πi. πij .j ) = µ + αi + βj + (αβ)ij

Le terme (αβ)ij est l'eet dû à l'interaction entre les variables X et Y.


Ce modèle est dit saturé car, présentant autant de paramètres que de

données, il explique exactement celles-ci.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 170 / 191
Modèles à 2 variables

An d'identier tous les paramètres, on ajoute les contraintes :


PI PJ
i=1 αi = j=1 βj = 0. Ces contraintes garantissent l'unicité.

Il est intéressent d'illustrer la notation matricielle du modèle dans le cas, par

exemple, où I =2 et J = 3. Le vecteur des paramètres inconnues est donné

par θ = (µ, α1 , β1 , β2 ), étant donné que α2 = −α1 et β3 = −β1 − β2 .


Ecrivez le modèle sous sa forme matricielle.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 171 / 191
Exemple

Le modèle se réécrit comme :


   
ln(e11 ) 1 1 1 0
     
ln(e12 ) 1 1 0 1  µ
   
     
ln(e13 ) 1 1 −1 −1 α1 
     
  =   
1 −1 1
     
ln(e21 ) 0   β1 
     
   
ln(e22 ) 1 −1 0 1  β2
   
ln(e23 ) 1 −1 −1 −1

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 172 / 191
Le modèle saturé pour une table I × J

Ce modèle s'écrit :

ln(eij ) = µ + αi + βj + (αβ)ij

Il est indispensable, à présent, d'ajouter les contraintes :

PI PJ
i=1 (αβ)ij = j=1 (αβ)ij =0

Ecrivez le modèle sous sa forme matricielle, pour I =2 et J = 3. Le vecteur

des paramètres inconnues est donné par θ = (µ, α1 , β1 , β2 , (αβ)11 , (αβ)12 )


qui est de la même dimension que µ. Vu que le nombre de paramètres

indépendants est équivalent au nombre de cellules, on aura un ajustement

parfait du tableau de contingence et donc un modèle saturé.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 173 / 191
Exemple

Le modèle se réécrit comme :


     
ln(e11 ) 1 1 1 0 1 0 µ
     
ln(e12 ) 1 1 0 1 0 1   α1 
     
     
ln(e13 ) 1 1 −1 −1 −1 −1  β1 
     
  =   
1 −1 1 −1 0 
     
ln(e21 ) 0  β2 
     
     
ln(e22 ) 1 −1 0 1 0 −1 (αβ)11 
     
ln(e23 ) 1 −1 −1 −1 1 1 (αβ)12

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 174 / 191
Modèle à 2 critères non indépendants et tests d'ajustement

Le modèle s'écrit comme suit :

ln(eij ) = µ + αi + βj + (αβ)ij

avec les contraintes :

PI PJ PI PJ
i=1 αi = j=1 βj = i=1 αβi. = j=1 αβ.j =0

En pratique, on s'intéresse essentiellement à l'étude de l'indépendance

entre les deux critères de classication et on test l'hypothèse nulle :

H0 : X ⊥Y

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 175 / 191
Condition d'indépendance

Proposition :

Soit le modèle log-linéaire saturé suivant :

ln(eij ) = µ + αi + βj + (αβ)ij

satisfaisant les contraintes

PI PJ PI PJ
i=1 αi = j=1 βj = i=1 αβi. = j=1 αβ.j =0

alors X ⊥Y ⇔ (αβ)ij = 0, ∀i, j

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 176 / 191
Modèle à 2 critères non indépendants et tests d'ajustement

Le rejet de l'hypothèse nulle (H0 = (αβ)ij = 0) s'eectue comme suit :

RH0 si LRobs ou Uobs ≥ χ2ddl où le

ddl = IJ − 1 − (I − 1) − (J − 1) = (I − 1)(J − 1)

avec

n
LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij )
P P

(n −nb π )2
Uobs = Ii=1 Jj=1 ij nbπij ij
P P

Le non rejet de l'hypothèse nulle signie que le modèle retenu est le modèle

non saturé suivant :

ln(eij ) = µ + αi + βj
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 177 / 191
Modèle à trois variables

On considère une table de contingence (I × J × K ) obtenue par croisement

de trois variables qualitatives X,Y et Z. Le modèle saturé s'écrit :

ln(eijk ) = µ + αi + βj + γk + (αβ)ij + (αγ)ik + (βγ)jk + (αβγ)ijk

Les termes αi , βj et γk représentent les eets principaux de X,Y et Z.


->Le nombre de paramètres : (I − 1), (J − 1), (K − 1)
Les termes (αβ)ij , (αγ)ik et (βγ)jk sont les intéractions du 1
er ordre.

->Le nombre de paramètres : (I − 1)(J − 1), (I − 1)(K − 1), (J − 1)(K − 1)


Les termes (αβγ)ijk sont les intéractions du second ordre.

-> Le nombre de paramètres : IJK − 1


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 178 / 191
Types et tests d'indépendances

-> Le modèle d'indépendance conditionnelle s'écrit :

ln(eijk ) = µ + αi + βj + γk + (αγ)ik + (βγ)jk

L'hypothèse nulle à tester est : H0 : X ⊥Y /Z ⇔ H0 : (αβ)ij = 0


-> Le modèle d'indépendance partielle s'écrit :

ln(eijk ) = µ + αi + βj + γk + (βγ)jk

L'hypothèse nulle à tester est : H0 : X ⊥(Y , Z ) ⇔ H0 : (αβ)ij = (αγ)ik = 0


-> Le modèle d'indépendance totale s'écrit :

ln(eijk ) = µ + αi + βj + γk

on teste H0 : X ⊥Y ⊥Z ⇔ H0 : (αβ)ij = (αγ)ik = (βγ)jk = 0


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 179 / 191
Relation entre les types d'indépendance

Soit le test d'indépendance mutuelle suivant : H0,m : X ⊥Y ⊥Z

Si on rejette H0,m , on teste l'indépendance partielle

H0,p : X ⊥(Y ∩ Z ), H0,p : Y ⊥(X ∩ Z ), H0,p : Z ⊥(X ∩ Y )

Si on rejette H0,p , on teste l'indépendance conditionnelle

H0,c : (X ⊥Y )/Z , H0,c : (X ⊥Z )/Y , H0,c : (Y ⊥Z )/X

Si on rejette H0,c aucune simplication n'est possible, on garde le

modèle saturé.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 180 / 191
Modèles hiérarchiques

Un modèle log-linéaire est dit hiérarchique si la condition suivante est

vériée : quand un coecient d'interaction est présent dans le modèle, les

coecients des variables mises en jeu et toutes les interactions d'ordre

inférieur sont aussi dans le modèle.

Par exemple, si dans un modèle à 5 variables on trouve l'interaction Xl 35 ,


alors le modèle, pour être hiérarchique, doit contenir au moins Xl , X3 et X5
ainsi que les interactions d'ordre inférieur X13 , X15 et X35 .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 181 / 191
Modèles hiérarchiques

Parmi les modèles log-linéaires possibles dans le cas d'un tableau de

contingence à deux variables, certains modèles sont hiérarchiques :

ln(eij ) = µ + αi + βj + (αβ)ij
ln(eij ) = µ + αi + βj

et d'autres ne le sont pas :

ln(eij ) = µ + αi + (αβ)ij
ln(eij ) = µ + βj + (αβ)ij
ln(eij ) = µ + (αβ)ij

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 182 / 191
Estimation des paramètres

Les fréquences théoriques espérées eijk sont en général estimées par la

méthode du maximum de vraisemblance. Elle consiste à rechercher les

paramètres qui maximisent la fonction de vraisemblance ℓ(nijk , eijk ). Pour

cela, on suppose que les variables aléatoires nijk suivent une loi

multinomiale.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 183 / 191
Tests d'ajustement

Pour comparer le tableau des fréquences estimées avec le tableau des

fréquences observées, deux tests (voisins) sont généralement utilisés :

n
LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij )
P P

(n −nb π )2
Uobs = Ii=1 Jj=1 ij nbπij ij
P P

Plus ces statistiques sont voisines de zéro, meilleur est l'ajustement. Elles

sont nulles pour le modèle saturé. On recherche le modèle le plus simple

(peu de paramètres) et qui reste acceptable (bon ajustement).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 184 / 191
Qualité de l'ajustement

La qualité de l'ajustement des cellules du tableau de contingence par un

modèle log-linéaire MA peut être mesurée par la statistique G 2, dénie par :

I X
J
2 nij
) ∼ χ2ddl
X
G =2 nij ln(
nb
πij
i=1 j=1

ddl= le nbr de cellules - le nbr de paramètres indep estimés

L'équation ci dessus est deux fois la diérence entre les maxima de la fct de

log vraisemblance du modèle saturé et du modèle MA .


Le critère G2 est appelé la déviance du modèle, il n'est autre que la

statistique du test du rapport de vraisemblance.

Si la statistique G 2 < χ2α,ddl , le modèle ne sera pas rejeté.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 185 / 191
Qualité de l'ajustement

Supposons que MA est un sous modèle de MB , et nous désirons tester si

MB permet un ajustement meilleur de la table de contingence. Notons

G 2 (A) et G 2 (B) les deux critères de déviance. La statistique du rapport de

MV utilisée est donnée par :

I X
J
bB
µ
G 2 (B/A) = 2 ) = G 2 (A) − G 2 (B)
ij
X
nij ln(
i=1 j=1
bA
µ ij

où bB
µ i etµ
bi A sont respectivement les valeurs ajustées par MA et MB .
Si la statistique de test G 2 (B/A) > χ2ddl(MB )−ddl(MA ),α , nous retenons le

modèle MB . Notons que le critère de déviance G 2 (A) = G 2 (S/A) compare

un modèle MA avec le modèle saturé MS .


Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 186 / 191
Choix du modèle

Le choix du modèle log-linéaire est d'autant plus dicile que le nombre de

variables est élevé. La méthode dite "combinatoire" est une des méthodes

possibles pour obtenir un "bon" modèle. A partir du modèle saturé, on

construit des modèles plus simples en retirant un à un les termes

d'interaction. La statistique G2 croît progressivement et l'on peut arrêter la

procédure lorsqu'elle augmente plus rapidement. On retiendra alors le

modèle correspondant et l'on en déduira les liaisons importantes entre les

variables.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 187 / 191
Choix du modèle

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 188 / 191
Sélection du modèle

Le modèle saturé donne un ajustement parfait, mais il n'a aucun ddl. En

outre, sa complexité est excessive. Des modèles plus simples, avec

seulement des eets principaux et pas de termes d'interaction, risquent

d'être incompatibles avec les données.

Le choix entre deux modèles emboîtés peut se faire via un TRMV. Un

moyen alternatif est l'utilisation du critère AIC, déni comme suit :

AIC = G 2 − 2dll + 2N

où G2 est la déviance du modèle et N est nombre de cellules.

Le modèle optimal est celui qui mènera à un bon compromis entre déviance

et ddl.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 189 / 191
Exemple

Nous disposons des données de 1000 automobilistes selon des 4 facteurs ;

(A) usage professionnel de la voiture (oui/non)

(B) respect de la vitesse maximale (oui/non),

(c) sexe (hommes/femmes)

(D) age de la voiture (<2 ans, entre 2 et 5 ans, >5 ans).

Le tableau de contingence est de dimension 4 et contient 2*2*2*3=24

cellules.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 190 / 191
Fadoua BADAOUI (INSEA) Analyse des données discrètes 27 décembre 2024 191 / 191

Vous aimerez peut-être aussi