0% ont trouvé ce document utile (0 vote)
639 vues31 pages

Analyse de La Variance Et Test de Khi Deux

Transféré par

rachida
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
639 vues31 pages

Analyse de La Variance Et Test de Khi Deux

Transféré par

rachida
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

PLAN

Introduction
Chapitre 1 : Analyse de la variance, ANOVA
Les équations fondamentales et les domaines d’application
Cas d’un seul facteur
Cas de deux facteurs croisés
Chapitre 2 : Khi deux
Le test de khi deux : à quoi ça sert ?
Test du Khi-deux d’ajustement
Test du Khi-deux d’homogénéité
Test du Khi-deux d’indépendance
Chapitre 3 : Applications
Conclusion
Analyse de la variance (ANOVA)
Introduction
L’analyse de la variance (ANOVA) a pour objectif d’étudier l’influence d’un ou plusieurs
facteurs sur une variable quantitative. Nous nous intéresserons ici au cas où les niveaux, ou
modalités, des facteurs sont fixés par l’expérimentateur. On parle alors de modèle fixe.
C’est la comparaison de moyennes pour plusieurs groupes (> 2). Il s'agit de comparer la
variance intergroupe (entre les différents groupes : écart des moyennes des groupes à la
moyenne totale) à la variance intragroupe (somme des fluctuations dans chaque groupe). S'il
n'y a pas de différence entre les groupes, ces deux variances sont (à peu près) égales. Sinon, la
variance intergroupe est nécessairement la plus grande.
L’ANOVA se résume à une comparaison multiple de moyennes de différents échantillons
constitués par les différentes modalités des facteurs. Les conditions d’application du test
paramétrique de comparaison de moyennes s’appliquent donc à nouveau.
L'analyse de variance (analysis of variance ou ANOVA) peut être vue comme une
généralisation du test de Student.
On souhaite tester les effets de k traitements qui ont été administrés respectivement à
n1,.........nk individus. En analyse de variance, le paramètre susceptible d'influer sur les
données étudiées s'appelle un facteur, et ses valeurs sont les modalités (ici les différents
traitements).

Les équations fondamentales et les


domaines d’application :

Dans le modèle probabiliste, chaque modalité correspond à un échantillon. Pour h = 1,.....k,


on note :

On cherche à savoir si la variabilité observée dans les données est uniquement due au hasard,
ou s'il existe effectivement des différences significatives entre les classes, imputables au
facteur. Pour cela, on va comparer les variances empiriques de chaque échantillon, à la
variance de l'échantillon global, de taille n1+...+nk=n. La moyenne des variances (pondérée
par les effectifs) résume la variabilité à l'intérieur des classes, d'où le nom de variance intra-
classes (intra-groupes), ou variance résiduelle. La variance des moyennes décrit les
différences entre classes qui peuvent être dues au traitement, d'où le nom de variance inter-
classes (intra-groupes), ou variance expliquée.
On note :

Test d'homogénéité des variances :

Pour beaucoup de tests paramétriques (ANOVA, régression), l'homogénéité des variances est
une condition nécessaire.
Homogénéité des variances = homoscédasticité
Plusieurs méthodes existent pour tester l'homogénéité des variances dans plusieurs groupes
qui n'ont pas nécessairement le même nombre d'objets. Un test très utilisé est le test de
Bartlett, détaillé ici. Ce test est valide si les distributions des objets sont Normales (Le test de
Bartlett estime si les différentes sous-catégories d'une variable de distribution normale ont la
même variance). Le test donne un résultat global et ne permet pas d'estimer les différences de
variances des sous-catégories deux à deux. Il est très sensible à la non-normalité.

Tests et Tableau d’Analyse de la Variance (ANOVA) d’un MRLS


1- Équation fondamentale de l’ANOVA:
La notion de liaison entre Y et X, signifie qu’une variation de x implique celle de Y. La
formule de décomposition de la formule de décomposition de la variance permet de connaître
la part de variation de Y expliquée par celle de X :

La variabilité totale(SCT) est égale à la variabilité expliquée(SCE) augmentée de la


variabilité résiduelle(SCR).
Cette décomposition va nous permettre de décider de la qualité de l’ajustement du
modèle.
Remarque : si la variance expliquée tend vers la variance totale (SCR faible), la vers
la variance totale (SCR faible), la qualité de l’ajustement tend à être meilleure.
Ceci nous donne une idée de tester, d’une autre façon, la signification de la régression:
un test équivalent au T-test sur 1.
La variabilité expliquée SCE n’est autre qu’un estimateur de E(SCE/1) et SCR
estimateur de E(SCR/n-2); on a :
De là, on peut affirmer que si la régression est significative alors : E (SCE /1) >E (SCR/n-2)
Par contre, si la régression n’est pas significative alors: E (SCE/1) =E (SCR/n-2)

Analyse de la variance à un seul facteur :


Bien souvent le statisticien est amené à mesurer le lien qui existe entre une variable quantitative
(notons-Y) et une ou plusieurs variables qualitatives (X1, X2,…, Xp).

La variable Y est appelée variable dépendante ou expliquée ou encore variable de réponse. Les
variables qualitatives sont les facteurs ou variables explicatives ou encore variables indépendantes
car non expliquées par le modèle. On parle d’ANOVA 1 lorsque l’on est en présence d’1 facteur,
d’ANOVA 2 en cas de deux facteurs, etc.

Le statisticien cherche à tester si les variables explicatives induisent un effet significatif sur la variable
dépendante. Pour ce faire, deux considérations sont possibles :

Cas A: Soit il cherche à savoir si le comportement de la variable Y suite à l’introduction des


variables X1, X2, …,Xp est imputable à celles-ci. C'est l'exemple du cultivateur qui veut
expliquer la croissance de ses tubercules par les types d'engrais que lui propose son
fournisseur.
Cas B :Soit il veut comparer la moyenne de plus de deux échantillons indépendants. C'est
l'exemple d'une entreprise présente dans toutes les régions de Dakar et qui après une
enquête de satisfaction-clients, veut savoir si la note donnée par ceux-ci sont en moyenne
identiques dans les 14 régions.

Dans le dernier cas, on pourrait penser utiliser des tests de student en comparant deux à deux les
échantillons des régions. Ce qui revient à faire 91 comparaisons! Intuitivement, une telle méthode
introduirait forcément un risque très élevé de commettre une erreur de première espèce (rejeter
l'hypothèse H0 alors qu'elle est vraie). En effet, si α désigne cette erreur (c'est à dire le risque de
conclure à une différence significative entre les notes des régions alors qu'en réalité il n'y en a pas),
alors plus le nombre de comparaisons est important, plus le risque de commettre une telle erreur est
lui aussi important. L'ANOVA est un moyen efficace de s'affranchir de ce risque en permettant de
comparer toutes les moyennes au moyen d'un seultest. Les formules et notations pour ce qui
concerne les moyennes et variances en ANOVA 1 et 2 sont détaillées en annexe.

Exemple introductif :
Une banque commerciale souhaite expliquer "céteris paribus"1 le solde des comptes
épargnes de ses clients par leur catégorie socio-professionnelle (cadres supérieurs, cadres
moyens ou employés) et leur milieu de résidence (urbain ou rural). Pour cela, elle prend un
échantillon de 30 comptes bancaires. Selon le type d'analyse à effectuer (ANOVA 1 ou 2), elle
considéra l'une ou les deux variables explicatives. Nous sommes ici dans le cas A da l'analyse
de la variance. La variable Y que l'on cherche à expliquer est le solde des comptes bancaires
qui peut être négatif (emprunt) ou positif (épargne). Ses valeurs dans l'échantillon sont :

-8,031 0,787 8,507


-7,726 0,815 8,748
-7,297 1,080 9,549
-5,511 1,359 10,582
-5,404 1,582 10,642
-4,424 1,834 10,927
-3,764 2,063 11,063
-3,399 2,189 12,544
-2,671 2,688 12,884
-2,659 3,972 14,554
-2,436 4,585 14,942
-1,786 4,721 15,744
-1,254 4,921 16,074
-1,202 5,079 16,363
-1,089 5,618 17,078
-0,579 6,445 17,202
-0,229 6,769 17,565
-0,068 7,183 17,587
0,200 7,668 17,794
0,211 7,760 19,651

Tableau 1: solde des comptes bancaires des clients

Analyse de la variance  :

L'analyse de la variance a pour but la comparaison des moyennes de k populations, à partir


d'échantillons aléatoires et indépendants prélevés dans chacune d'elles.

Ces populations sont en général des variantes (ou niveaux k) d'un ou plusieurs facteurs
contrôlés de variation (facteurs A, B, ...).

Conditions d'applications de l'ANOVA  :

les populations étudiées suivent une distribution normale


les variances des populations sont toutes égales (HOMOSCEDASTICITE)
les échantillons de tailles sont prélevés aléatoirement et indépendamment
dans les populations.

Procédure de calcul d'une ANOVA  :

Déterminer si les échantillons varient de la même manière.


Si nous démontrons l'homogénéité des variances, alors nous pouvons comparer
les moyennes de ces échantillons.

Problèmes liés à l'égalité des variances

Test de l'homogénéité des variances

: les variances sont homogènes.


: Au moins une des variances est différente des autres

→ Utilisation d'un test de comparaison de plusieurs variances

Si est rejetée : il est théoriquement impossible de comparer des


échantillons qui ne varient pas de la même manière.
Si n’est pas rejetée : par conséquent, il est possible de comparer les
moyennes de tels échantillons.

ANOVA à un facteur - Schématisation de l'analyse multiple de


moyennes
Figure : Expériences avec plusieurs échantillons

Soit une Expérience faisant intervenir k échantillons de individus.

Le nombre total d'individus est

On calcule la moyenne générale des mesures de l'expérience (G).

Variabilité totale  :
Figure : Variabilité totale ( tous les échantillons confondus)

Variabilité totale au sein de l'expérience (quel que soit l'échantillon) : reflète


les écarts de tous les individus par rapport à la moyenne générale (G) de
l'expérience.

Calcul de la Somme des Carrés des Écarts à la moyenne totale ( ).

Degrés de liberté (DDL) associés : N-1.

Variabilité factorielle  :
Figure : Effet du facteur étudié sur les moyennes des échantillons par rapport à la
moyenne générale

Variabilité factorielle : reflète les écarts des moyennes des échantillons


(supposées influencées par le facteur étudié) par rapport à la moyenne générale
(G) de l'expérience.

Calcul de la Somme des Carrés des Écarts à la moyenne factorielle ( ).

DDL associés : k-1.

Variabilité résiduelle  :
Figure : Variabilité intragroupe (résiduelle)

Variabilité résiduelle (liée à l'individu) : reflète l'importance des variations


individuelles dans chaque échantillon.

Calcul de la Somme des Carrés des Écarts à la moyenne résiduelle ( ).

DDL associés : N-k.

Bilan :
Figure : Représentation combinée de toutes les sources de variabilités

Pour résumer :


 DDL associés : N-1 = k-1 + N-k.

 On comparera les variabilités factorielle et résiduelle

Variabilités : comparaison variation factorielle – variation résiduelle  :

Figure : Représentation schématique d'un effet factoriel peu marqué


Effet du facteur : faible

Variation Factorielle : grande (légèrement supérieure à la variation Résiduelle)

Variation Résiduelle : grande

Figure : Représentation schématique d'une variabilité factorielle non significative

Effet du facteur : non significatif

Variation Factorielle : faible (inférieure ou égale à la variation Résiduelle

Variation Résiduelle : grande

Figure : Représentation schématique d'un effet factoriel significatif

Effet du facteur : significatif

Variation Factorielle : grande (très supérieure à la variation Résiduelle)

Variation Résiduelle : faible

Théorème d'analyse de la variance :


Tableau : Tableau d'ANOVA

ANOVA à deux facteurs :


Définition :

 Étude simultanée d’un facteur A à p modalités et d’un facteur B à q modalités.

 Pour chaque couple de modalités (A, B) :


o On a un échantillon ( et ).
o Tous les sont de mêmes tailles .

Conditions d'applications de l'ANOVA :

Les populations étudiées suivent une distribution normale

Les variances des populations sont toutes égales (HOMOSCEDASTICITE)

Les échantillons de tailles sont prélevés aléatoirement et indépendamment dans


les populations.

Procédure de calcul d'une ANOVA :

Déterminer si les échantillons varient de la même manière.

Si nous démontrons l'homogénéité des variances, alors nous pouvons comparer


les moyennes de ces échantillons.

Problèmes liés à l'égalité des variances :

Test de l'homogénéité des variances

: les variances sont homogènes.


: Au moins une des variances est différente des autres

→ Utilisation d'un test de comparaison de plusieurs variances

Conclusion

Si est rejetée : il est théoriquement impossible de comparer des


échantillons qui ne varient pas de la même manière.
Si n’est pas rejetée : par conséquent, il est possible de comparer les
moyennes de tels échantillons

Décomposition de la variance factorielle :

Tableau : Décomposition de la variance factorielle

Théorème d'analyse de la variance :

Tableau : Tableau d'ANOVA

Sous l’hypothèse H0 :

suit une loi de Snédécor à et ddl


suit une loi de Snédécor à et ddl
suit une loi de Snédécor à et ddl
(tests unilatéraux : le rapport n’est pas obligatoirement supérieur à 1)

Choix du risque

Risque de première espèce (erreur commise lorsqu’on rejette à tort).

Décision
Figure : Zones de rejet de l'hypothèse nulle pour une distribution de Snédécor et un test
unilatéral

Si => rejet de au risque :

o La variance factorielle est significativement supérieure à la variance


résiduelle : les moyennes diffèrent significativement entre-elles.

→ on attribue une influence significative au facteur A étudié.

Si => rejet de au risque :

o La variance factorielle est significativement supérieure à la variance


résiduelle : les moyennes diffèrent significativement entre-elles.

→ on attribue une influence significative au facteur B étudié.

Si => rejet de au risque :

o La variance factorielle est significativement supérieure à la variance


résiduelle : les moyennes diffèrent significativement entre-elles.

→ Il existe une interaction significative d'un facteur sur l'autre.

Recherche du degré de signification p pour chaque test (recherche du risque


le plus petit possible pour conclure au rejet de )
Sinon rien ne permet de dire que les moyennes des populations ne sont pas
égales => n’est pas rejetée.

ANOVA à deux facteurs - Cas particulier où n = 1


Tableau : Tableau d'ANOVA à 2 facteurs, échantillons d'une seule valeur

Si => rejet de au risque :

o La variance factorielle est significativement supérieure à la variance


résiduelle : les moyennes diffèrent significativement entre-elles.

→ On attribue une influence significative au facteur A étudié.

Si => rejet de au risque :

o La variance factorielle est significativement supérieure à la variance


résiduelle : les moyennes diffèrent significativement entre-elles.

→ On attribue une influence significative au facteur B étudié.

Le test pour n'est pas réalisable

Recherche du degré de signification p pour chaque test (recherche du risque


le plus petit possible pour conclure au rejet de )

Sinon rien ne permet de dire que les moyennes des populations ne sont pas
égales => n’est pas rejetée.

Conclusion :
L'analyse de la variance est une méthode qui consiste à expliquer une ou plusieurs variables
quantitatives par une ou plusieurs variables qualitatives. Dans le cas d'une seule variable quantitative
on l'appelle ANOVA. S'il y en a deux ou plus, cette méthode devient la MANOVA (Mulivariates
ANalasis Of Variance). Elle est très pratique à bien plus d'égards. Les tests statistiques que l'on utilise
ici reposent sur le développement de deux estimations indépendantes de la variance de la
population. En calculant le rapport de ces deux estimations (statistique de Fisher), on développe une
règle de rejet afin de déterminer si oui ou non l'hypothèse d'égalité des moyennes des populations
doit être rejetée. Comme toute méthode statistique, elle repose en amont sur des hypothèses que
l'on doit vérifier une fois les estimateurs calculés. Le statisticien doit toujours et en tout temps être
très prudent quant à l'interprétation des résultats.

ANNEXES :
La statistique est une discipline des mathématiques qui nous permet de collecter des données, de les
traitées, de les interprétées afin de les rendre le plus compréhensibles possible pour tous, grâce à la
statistique on peut effectuer des tests et des simulations sur un échantillon de données d’une
population dans différent domaine tel que : le trafic urbain, la gestion d’un hôpital, l’évolution d’une
population, les prévisions du cours du baril de brent de pétrole ,etc. Et cela ce fait en utilisant les lois
de probabilités mathématiques discrètes tel que la loi de Bernoulli, la loi de Poissons, la loi Uniforme
discrète et la loi Multinomiale,..., etc. ou continu tel que la loi Normal, la loi de Student , la loi
Uniforme continue ,la loi Fisher et la loi de khi deux qui est l’objet de ce mémoire de licence, nous
proposons de faire un test statistique aves les test Hypothèses en utilisant la loi de khi 2 car, le test
du Khi 2 fournit une méthode pour déterminer la nature d’une répartition, qui peut être continue ou
discrète, ou bien de tester l’indépendance entre deux variables aléatoires.

Test de Khi-deux :
Le test du χ2, prononcé « khi-deux » ou « khi carré », est un test statistique permettant de tester
l’adéquation d’une série de données à une famille de lois de probabilités ou de tester l’indépendance
entre deux variables aléatoires.

Principe :
À la base d’un test statistique, il y a la formulation d’une hypothèse appelée hypothèse nulle
(ou hypothèse zéro), notée H0.
Dans le cas présent, elle suppose que les données considérées proviennent de variables
aléatoires suivant une loi de probabilité donnée, et l’on souhaite tester la validité de cette
hypothèse.
Ces données ayant été réparties en classes, il faut :
Calculer algébriquement la distance entre les données observées et les données
théoriques attendues.
Se donner a priori un risque d’erreur, celle consistant à rejeter l’hypothèse, alors
qu’elle est vraie (la valeur 5 % est souvent choisie par défaut; il s’agit plus souvent
d’une coutume que du résultat d’une réflexion).
Déterminer le nombre de degrés de liberté du problème à partir du nombre de
classes, et à l’aide d’une table de χ2, déduire en tenant compte du nombre de degrés
de liberté la distance critique qui a une probabilité de dépassement égale à ce risque.
Le test du Khi2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d’une
répartition, qui peut être continue ou discrète.

Domaine d’application du test :


Données qualitatives.
2 ou plusieurs échantillons.
Dépendants ou indépendants.
Comparaison d’échantillons. Recherche de liaison entre les données.
Recherche de l’influence d’une donnée autre que celle étudiée.

La démarche à suivre :
Formuler H0 (la distribution observée n’est pas différente de la distribution supposée
d’après la loi que l’on souhaite tester).
Répartir les données en classes.
Déterminer le nombre de degrés de liberté à partir du nombre de classes.
Fixer un risque de se tromper (la valeur 5 % est souvent choisie par défaut).
Calculer algébriquement la distance entre les ensembles d’informations à comparer.
Déterminer Khi2 théorique (déduire la distance critique à l’aide d’une table de χ2).
Conclure si cette distance est supérieure à la distance critique (on conclut que le résultat
n’est pas dû seulement aux fluctuations d’échantillonnage).

Test du Khi-deux d’ajustement :


Objectif :
Les observations faites sur un échantillon conduisent à une certaine distribution de
fréquences. Peut-on modéliser cette distribution par un modèle théorique connu.

Méthode :
La méthode consiste à comparer l’histogramme des fréquences et la distribution de la loi de
probabilité servant du modèle théorique.
Après avoir découpé l’intervalle d’observation en k classes, on construit un indice d
mesurant l’écart constaté entre les effectifs réels et les effectifs théoriques.
Hypothèses :
Ho = la distribution observée n’est pas significativement différente de la distribution
théorique contre H1 = la distribution observée est significativement différente de la
distribution théorique.

Statistique de test :

Remarque :
Le choix et le nombre de classes est arbitraire. Cependant pour que l’approximation par la loi
du χ2 soit bonne, il est nécessaire que les effectifs théoriques dans chacune des
classessoitaumoinségalà[Link]’estpaslecas, il faut au préalable regrouper les classes
contigües afin d’avoir un effectif suffisant. La valeur de k intervenant dans le nombre de
degrés de liberté de la loi du χ2 est celle obtenue après les éventuels regroupements.

Test d’indépendance :
Lorsqu’on considère plusieurs populations auxquelles on associe le même ensemble de critères
qualitatifs, l’hypothèse à tester est l’indépendance entre la population d’appartenance de l’individu
et la valeur des critères. L’hypothèse affirme donc que le fait de connaître la population d’un individu
n’influence pas la valeur des critères.

But du test :
Le test d’indépendance du chi-carré vise à déterminer si deux variables observées sur un
échantillon sont indépendantes ou non. Les variables étudiées sont des variables qualitatives
catégorielles.
Ce test s’applique lorsqu’on souhaite démontrer l’indépendance ou la dépendance de deux
critères dans une expérience.
Cetests’effectuesurlabased’unetabledecontingence:plusieurséchantillonspouvant être
classés selon un certain nombre de colonnes (critère 1) et de lignes (critère 2).

Objectif :
Les observations de deux variables qualitatives faites sur un échantillon permettent de juger
l’indépendance de ces variables.

Méthodes :
La méthode consiste à comparer les effectifs réels des croisements des modalités des deux
variables qualitatives avec les effectifs théoriques qu’on devrait obtenir dans le cas
d’indépendance de ces deux variables.
On construit un indice d mesurant l’écart constaté entre les effectifs réels et les effectifs
théoriques.

Statistique de test :
Où 1 est le nombre de modalités de la 1 variable (nombre de lignes du tableau de
contingence) et c est le nombre de modalités de la 2 variable (nombre de colonnes du
tableau de contingence).

Remarque :

Où ni. Est l’effectif des individus possédant la modalité i de la 1 variable et n.j l’effectif des
individus possédant la modalité j des 2 variables.

Outil de développement :
Langage R :
R est un langage de programmation interactif interprété et orienté objet contenant une très
large collection de méthodes statistiques et des facilités graphiques importantes C’est un
clone gratuit du logiciel S-Plus commercialisé par MathSoft et développé par Statistical
Sciences autour du langage S (conçu par les laboratoires Bel ).
Initié dans les années 90 par Robert Gentleman et Ross Ihak a (Département de Statistique,
Université d’Auckland, Nouvelle-Zélande), auxquels sont venus depuis s’ajouter de
nombreux chercheurs, le logiciel R constitue aujourd’hui un langage de programmation
intégré d’analyse statistique.
R est un logiciel libre de traitement des données et d’analyse statistiques mettant en œuvre
le langage de programmation S. C’est un projet GNU fondé sur l’environnement développé
dans les laboratoires Bell par John Chambers et ses collègues. Depuis plusieurs années, deux
nouvelles versions apparaissent au printemps et à l’automne. Il dispose de nombreuses
fonctions graphiques.
Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la
sémantique dérivée du langage Scheme. C’est un logiciel libre distribué selon les termes de
la licence GNU GPL et est disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS X
et Windows. Il représente aujourd’hui l’un des objectifs techniques majeurs de la
communauté hacker GNU.

Exercice d’application :
Un étalon gris hétérozygote accouplé à des juments non grises produira des poulains gris
avec une probabilité de 0,25 d'après les lois de Mendel. Des juments non grises accouplées à
cet étalon et ayant produit 5 poulains ont donné les résultats suivants :

Nombre de 0 1 2 3 et plus
poulains gris sur
les 5 produits
Nombre de 10 18 16 6
juments

1. Soit X la variable aléatoire prenant pour valeur le nombre de poulains gris par jument.
Définir la loi de probabilité de X, sous l'hypothèse de Mendel.
2. A l'aide d'un test de χ² (au seuil de 5%), dire si les résultats observés permettent
d'accepter l'hypothèse de Mendel.

Corrigé :
1. Nous sommes dans le cas d'un schéma de Bernoulli (On suppose qu'il n'y a qu'un poulain
par portée): - Pour chaque poulain il y a deux éventualités contraires : soit il est gris (avec
une probabilité p = 0,25) soit il est non gris (avec une probabilité de 1 - p = 0,75)
- Les couleurs des 5 poulains d'une jument sont indépendantes et ont été obtenues dans les
mêmes conditions. Ces deux conditions nous permettent de dire que, sous l'hypothèse de
Mendel, X est de loi binomiale B (5; 0,25).
2. Il s'agit ici d'un test d'ajustement : Posons l'hypothèse nulle H 0 : Les résultats sont
conformes à la théorie. C'est-à-dire : H0 : La variable aléatoire X suit la loi binomiale B(5;
0,25).

nous allons calculer les


probabilités puis les effectifs théoriques correspondant aux diverses valeurs de X :

Nombre de 0 1 2 3 ou plus Totaux


poulains gris
sur les 5
produits
effectifs 10 18 16 6 50
observés (ni)
Probabilités 0,2373 0,3955 0,2637 0,1035 * 1
(pi)
effectifs 11,87 19,78 13,18 5,17 * 50
théoriques
(npi)

ni - npi -1,87 -1,78 2,82 0,83 0

La taille de l'échantillon est n = 50, c'est-à-dire l'effectif total.


Variable de décision :
Tous les effectifs théoriques étant supérieurs à 5, on peut dire que, sous l'hypothèse H0, la

variable suit approximativement la loi de χ² à 413 −= degrés de


Liberté (ddl).
Remarque : le Ni en majuscule signifie qu'il s'agit ici d'une variable aléatoire mais une
minuscule est tolérée.
Calcul de la valeur de K0 pour l’échantillon prélevé :

Pour 3 ddl on lit dans la table : χ0 95 2 781. , = (ce type de test est unilatéral). k0 est inférieur
à cette valeur donc on ne rejette pas H0.
Nous pouvons donc en conclure, au seuil de 5 %, que les résultats observés ne contredisent
pas la théorie.

Exercice d’application :
Afin de comparer l'action de deux levures sur une pâte à gâteaux, on prélève, pour chacune
des levures, un échantillon aléatoire de gâteaux. L'aptitude des pâtes à lever est définie par
les critères suivants : moyenne, bonne, très bonne.
Les résultats constatés sont rassemblés dans le tableau suivant :

A l'aide d'un test de χ2, au risque de 5%, peut-on conclure à une différence d'activité des
deux levures ?

Corrigé :
Il s'agit ici d'un test de comparaison de deux distributions qui se ramène à un test
d'indépendance.
Nous allons donc établir le tableau de contingences : L'effectif théorique de la classe située à

l'intersection de la i ième lignes et de la j ième colonnes est donné par


(où ni. est l'effectif total de la i ième ligne, n j . celui de la j ième colonne et n l'effectif total
soit 220).
Les effectifs théoriques notés sont en italiques :

Variable de décision :
Tous les effectifs théoriques sont supérieurs ou égaux à 5 donc, sous l’hypothèse H0, la
variable aléatoire.
La statistique est une discipline des mathématiques qui nous permet de collecter des données, de les
traitées, de les interprétées afin de les rendre le plus compréhensibles possible pour tous, grâce à la
statistique on peut effectuer des tests et des simulations sur un échantillon de données d’une
population dans différent domaine tel que : le trafic urbain, la gestion d’un hôpital, l’évolution d’une
population, les prévisions du cours du baril de brent de pétrole ,etc. Et cela ce fait en utilisant les lois
de probabilités mathématiques discrètes tel que la loi de Bernoulli, la loi de Poissons, la loi Uniforme
discrète et la loi Multinomiale,..., etc. ou continu tel que la loi Normal, la loi de Student , la loi
Uniforme continue ,la loi Fisher et la loi de khi deux qui est l’objet de ce mémoire de licence, nous
proposons de faire un test statistique aves les test Hypothèses en utilisant la loi de khi 2 car, le test
du Khi 2 fournit une méthode pour déterminer la nature d’une répartition, qui peut être continue ou
discrète, ou bien de tester l’indépendance entre deux variables aléatoires.

Test de Khi-deux :
Le test du χ2, prononcé « khi-deux » ou « khi carré », est un test statistique permettant de tester
l’adéquation d’une série de données à une famille de lois de probabilités ou de tester l’indépendance
entre deux variables aléatoires.

Principe :
À la base d’un test statistique, il y a la formulation d’une hypothèse appelée hypothèse nulle
(ou hypothèse zéro), notée H0.
Dans le cas présent, elle suppose que les données considérées proviennent de variables
aléatoires suivant une loi de probabilité donnée, et l’on souhaite tester la validité de cette
hypothèse.
Ces données ayant été réparties en classes, il faut :
Calculer algébriquement la distance entre les données observées et les données
théoriques attendues.
Se donner a priori un risque d’erreur, celle consistant à rejeter l’hypothèse, alors
qu’elle est vraie (la valeur 5 % est souvent choisie par défaut; il s’agit plus souvent
d’une coutume que du résultat d’une réflexion).
Déterminer le nombre de degrés de liberté du problème à partir du nombre de
classes, et à l’aide d’une table de χ2, déduire en tenant compte du nombre de degrés
de liberté la distance critique qui a une probabilité de dépassement égale à ce risque.
Le test du Khi2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d’une
répartition, qui peut être continue ou discrète.

Domaine d’application du test :


Données qualitatives.
2 ou plusieurs échantillons.
Dépendants ou indépendants.
Comparaison d’échantillons. Recherche de liaison entre les données.
Recherche de l’influence d’une donnée autre que celle étudiée.

La démarche à suivre :
Formuler H0 (la distribution observée n’est pas différente de la distribution supposée
d’après la loi que l’on souhaite tester).
Répartir les données en classes.
Déterminer le nombre de degrés de liberté à partir du nombre de classes.
Fixer un risque de se tromper (la valeur 5 % est souvent choisie par défaut).
Calculer algébriquement la distance entre les ensembles d’informations à comparer.
Déterminer Khi2 théorique (déduire la distance critique à l’aide d’une table de χ2).
Conclure si cette distance est supérieure à la distance critique (on conclut que le résultat
n’est pas dû seulement aux fluctuations d’échantillonnage).

Test du Khi-deux d’ajustement :

Vous aimerez peut-être aussi