0% ont trouvé ce document utile (0 vote)

639 vues31 pages

Analyse de La Variance Et Test de Khi Deux

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

639 vues31 pages

Analyse de La Variance Et Test de Khi Deux

Transféré par

rachida

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

PLAN

Introduction
Chapitre 1 : Analyse de la variance, ANOVA
Les équations fondamentales et les domaines d’application
Cas d’un seul facteur
Cas de deux facteurs croisés
Chapitre 2 : Khi deux
Le test de khi deux : à quoi ça sert ?
Test du Khi-deux d’ajustement
Test du Khi-deux d’homogénéité
Test du Khi-deux d’indépendance
Chapitre 3 : Applications
Conclusion
Analyse de la variance (ANOVA)
Introduction
L’analyse de la variance (ANOVA) a pour objectif d’étudier l’influence d’un ou plusieurs
facteurs sur une variable quantitative. Nous nous intéresserons ici au cas où les niveaux, ou
modalités, des facteurs sont fixés par l’expérimentateur. On parle alors de modèle fixe.
C’est la comparaison de moyennes pour plusieurs groupes (> 2). Il s'agit de comparer la
variance intergroupe (entre les différents groupes : écart des moyennes des groupes à la
moyenne totale) à la variance intragroupe (somme des fluctuations dans chaque groupe). S'il
n'y a pas de différence entre les groupes, ces deux variances sont (à peu près) égales. Sinon, la
variance intergroupe est nécessairement la plus grande.
L’ANOVA se résume à une comparaison multiple de moyennes de différents échantillons
constitués par les différentes modalités des facteurs. Les conditions d’application du test
paramétrique de comparaison de moyennes s’appliquent donc à nouveau.
L'analyse de variance (analysis of variance ou ANOVA) peut être vue comme une
généralisation du test de Student.
On souhaite tester les effets de k traitements qui ont été administrés respectivement à
n1,.........nk individus. En analyse de variance, le paramètre susceptible d'influer sur les
données étudiées s'appelle un facteur, et ses valeurs sont les modalités (ici les différents
traitements).

Les équations fondamentales et les

domaines d’application :

Dans le modèle probabiliste, chaque modalité correspond à un échantillon. Pour h = 1,.....k,

on note :

On cherche à savoir si la variabilité observée dans les données est uniquement due au hasard,
ou s'il existe effectivement des différences significatives entre les classes, imputables au
facteur. Pour cela, on va comparer les variances empiriques de chaque échantillon, à la
variance de l'échantillon global, de taille n1+...+nk=n. La moyenne des variances (pondérée
par les effectifs) résume la variabilité à l'intérieur des classes, d'où le nom de variance intra-
classes (intra-groupes), ou variance résiduelle. La variance des moyennes décrit les
différences entre classes qui peuvent être dues au traitement, d'où le nom de variance inter-
classes (intra-groupes), ou variance expliquée.
On note :

Test d'homogénéité des variances :

Pour beaucoup de tests paramétriques (ANOVA, régression), l'homogénéité des variances est
une condition nécessaire.
Homogénéité des variances = homoscédasticité
Plusieurs méthodes existent pour tester l'homogénéité des variances dans plusieurs groupes
qui n'ont pas nécessairement le même nombre d'objets. Un test très utilisé est le test de
Bartlett, détaillé ici. Ce test est valide si les distributions des objets sont Normales (Le test de
Bartlett estime si les différentes sous-catégories d'une variable de distribution normale ont la
même variance). Le test donne un résultat global et ne permet pas d'estimer les différences de
variances des sous-catégories deux à deux. Il est très sensible à la non-normalité.

Tests et Tableau d’Analyse de la Variance (ANOVA) d’un MRLS

1- Équation fondamentale de l’ANOVA:
La notion de liaison entre Y et X, signifie qu’une variation de x implique celle de Y. La
formule de décomposition de la formule de décomposition de la variance permet de connaître
la part de variation de Y expliquée par celle de X :

La variabilité totale(SCT) est égale à la variabilité expliquée(SCE) augmentée de la

variabilité résiduelle(SCR).
Cette décomposition va nous permettre de décider de la qualité de l’ajustement du
modèle.
Remarque : si la variance expliquée tend vers la variance totale (SCR faible), la vers
la variance totale (SCR faible), la qualité de l’ajustement tend à être meilleure.
Ceci nous donne une idée de tester, d’une autre façon, la signification de la régression:
un test équivalent au T-test sur 1.
La variabilité expliquée SCE n’est autre qu’un estimateur de E(SCE/1) et SCR
estimateur de E(SCR/n-2); on a :
De là, on peut affirmer que si la régression est significative alors : E (SCE /1) >E (SCR/n-2)
Par contre, si la régression n’est pas significative alors: E (SCE/1) =E (SCR/n-2)

Analyse de la variance à un seul facteur :

Bien souvent le statisticien est amené à mesurer le lien qui existe entre une variable quantitative
(notons-Y) et une ou plusieurs variables qualitatives (X1, X2,…, Xp).

La variable Y est appelée variable dépendante ou expliquée ou encore variable de réponse. Les
variables qualitatives sont les facteurs ou variables explicatives ou encore variables indépendantes
car non expliquées par le modèle. On parle d’ANOVA 1 lorsque l’on est en présence d’1 facteur,
d’ANOVA 2 en cas de deux facteurs, etc.

Le statisticien cherche à tester si les variables explicatives induisent un effet significatif sur la variable
dépendante. Pour ce faire, deux considérations sont possibles :

Cas A: Soit il cherche à savoir si le comportement de la variable Y suite à l’introduction des

variables X1, X2, …,Xp est imputable à celles-ci. C'est l'exemple du cultivateur qui veut
expliquer la croissance de ses tubercules par les types d'engrais que lui propose son
fournisseur.
Cas B :Soit il veut comparer la moyenne de plus de deux échantillons indépendants. C'est
l'exemple d'une entreprise présente dans toutes les régions de Dakar et qui après une
enquête de satisfaction-clients, veut savoir si la note donnée par ceux-ci sont en moyenne
identiques dans les 14 régions.

Dans le dernier cas, on pourrait penser utiliser des tests de student en comparant deux à deux les
échantillons des régions. Ce qui revient à faire 91 comparaisons! Intuitivement, une telle méthode
introduirait forcément un risque très élevé de commettre une erreur de première espèce (rejeter
l'hypothèse H0 alors qu'elle est vraie). En effet, si α désigne cette erreur (c'est à dire le risque de
conclure à une différence significative entre les notes des régions alors qu'en réalité il n'y en a pas),
alors plus le nombre de comparaisons est important, plus le risque de commettre une telle erreur est
lui aussi important. L'ANOVA est un moyen efficace de s'affranchir de ce risque en permettant de
comparer toutes les moyennes au moyen d'un seultest. Les formules et notations pour ce qui
concerne les moyennes et variances en ANOVA 1 et 2 sont détaillées en annexe.

Exemple introductif :
Une banque commerciale souhaite expliquer "céteris paribus"1 le solde des comptes
épargnes de ses clients par leur catégorie socio-professionnelle (cadres supérieurs, cadres
moyens ou employés) et leur milieu de résidence (urbain ou rural). Pour cela, elle prend un
échantillon de 30 comptes bancaires. Selon le type d'analyse à effectuer (ANOVA 1 ou 2), elle
considéra l'une ou les deux variables explicatives. Nous sommes ici dans le cas A da l'analyse
de la variance. La variable Y que l'on cherche à expliquer est le solde des comptes bancaires
qui peut être négatif (emprunt) ou positif (épargne). Ses valeurs dans l'échantillon sont :

-8,031 0,787 8,507

-7,726 0,815 8,748
-7,297 1,080 9,549
-5,511 1,359 10,582
-5,404 1,582 10,642
-4,424 1,834 10,927
-3,764 2,063 11,063
-3,399 2,189 12,544
-2,671 2,688 12,884
-2,659 3,972 14,554
-2,436 4,585 14,942
-1,786 4,721 15,744
-1,254 4,921 16,074
-1,202 5,079 16,363
-1,089 5,618 17,078
-0,579 6,445 17,202
-0,229 6,769 17,565
-0,068 7,183 17,587
0,200 7,668 17,794
0,211 7,760 19,651

Tableau 1: solde des comptes bancaires des clients

Analyse de la variance :

L'analyse de la variance a pour but la comparaison des moyennes de k populations, à partir

d'échantillons aléatoires et indépendants prélevés dans chacune d'elles.

Ces populations sont en général des variantes (ou niveaux k) d'un ou plusieurs facteurs
contrôlés de variation (facteurs A, B, ...).

Conditions d'applications de l'ANOVA :

les populations étudiées suivent une distribution normale

les variances des populations sont toutes égales (HOMOSCEDASTICITE)
les échantillons de tailles sont prélevés aléatoirement et indépendamment
dans les populations.

Procédure de calcul d'une ANOVA :

Déterminer si les échantillons varient de la même manière.

Si nous démontrons l'homogénéité des variances, alors nous pouvons comparer
les moyennes de ces échantillons.

Problèmes liés à l'égalité des variances

Test de l'homogénéité des variances

: les variances sont homogènes.

: Au moins une des variances est différente des autres

→ Utilisation d'un test de comparaison de plusieurs variances

Si est rejetée : il est théoriquement impossible de comparer des

échantillons qui ne varient pas de la même manière.
Si n’est pas rejetée : par conséquent, il est possible de comparer les
moyennes de tels échantillons.

ANOVA à un facteur - Schématisation de l'analyse multiple de

moyennes
Figure : Expériences avec plusieurs échantillons

Soit une Expérience faisant intervenir k échantillons de individus.

Le nombre total d'individus est

On calcule la moyenne générale des mesures de l'expérience (G).

Variabilité totale :
Figure : Variabilité totale ( tous les échantillons confondus)

Variabilité totale au sein de l'expérience (quel que soit l'échantillon) : reflète

les écarts de tous les individus par rapport à la moyenne générale (G) de
l'expérience.

Calcul de la Somme des Carrés des Écarts à la moyenne totale ( ).

Degrés de liberté (DDL) associés : N-1.

Variabilité factorielle :
Figure : Effet du facteur étudié sur les moyennes des échantillons par rapport à la
moyenne générale

Variabilité factorielle : reflète les écarts des moyennes des échantillons

(supposées influencées par le facteur étudié) par rapport à la moyenne générale
(G) de l'expérience.

Calcul de la Somme des Carrés des Écarts à la moyenne factorielle ( ).

DDL associés : k-1.

Variabilité résiduelle :
Figure : Variabilité intragroupe (résiduelle)

Variabilité résiduelle (liée à l'individu) : reflète l'importance des variations

individuelles dans chaque échantillon.

Calcul de la Somme des Carrés des Écarts à la moyenne résiduelle ( ).

DDL associés : N-k.

Bilan :
Figure : Représentation combinée de toutes les sources de variabilités

Pour résumer :


 DDL associés : N-1 = k-1 + N-k.

 On comparera les variabilités factorielle et résiduelle

Variabilités : comparaison variation factorielle – variation résiduelle :

Figure : Représentation schématique d'un effet factoriel peu marqué

Effet du facteur : faible

Variation Factorielle : grande (légèrement supérieure à la variation Résiduelle)

Variation Résiduelle : grande

Figure : Représentation schématique d'une variabilité factorielle non significative

Effet du facteur : non significatif

Variation Factorielle : faible (inférieure ou égale à la variation Résiduelle

Variation Résiduelle : grande

Figure : Représentation schématique d'un effet factoriel significatif

Effet du facteur : significatif

Variation Factorielle : grande (très supérieure à la variation Résiduelle)

Variation Résiduelle : faible

Théorème d'analyse de la variance :

Tableau : Tableau d'ANOVA

ANOVA à deux facteurs :

Définition :

 Étude simultanée d’un facteur A à p modalités et d’un facteur B à q modalités.

 Pour chaque couple de modalités (A, B) :

o On a un échantillon ( et ).
o Tous les sont de mêmes tailles .

Conditions d'applications de l'ANOVA :

Les populations étudiées suivent une distribution normale

Les variances des populations sont toutes égales (HOMOSCEDASTICITE)

Les échantillons de tailles sont prélevés aléatoirement et indépendamment dans

les populations.

Procédure de calcul d'une ANOVA :

Déterminer si les échantillons varient de la même manière.

Si nous démontrons l'homogénéité des variances, alors nous pouvons comparer

les moyennes de ces échantillons.

Problèmes liés à l'égalité des variances :

Test de l'homogénéité des variances

: les variances sont homogènes.

: Au moins une des variances est différente des autres

→ Utilisation d'un test de comparaison de plusieurs variances

Conclusion

Si est rejetée : il est théoriquement impossible de comparer des

échantillons qui ne varient pas de la même manière.
Si n’est pas rejetée : par conséquent, il est possible de comparer les
moyennes de tels échantillons

Décomposition de la variance factorielle :

Tableau : Décomposition de la variance factorielle

Théorème d'analyse de la variance :

Tableau : Tableau d'ANOVA

Sous l’hypothèse H0 :

suit une loi de Snédécor à et ddl

suit une loi de Snédécor à et ddl
suit une loi de Snédécor à et ddl
(tests unilatéraux : le rapport n’est pas obligatoirement supérieur à 1)

Choix du risque

Risque de première espèce (erreur commise lorsqu’on rejette à tort).

Décision
Figure : Zones de rejet de l'hypothèse nulle pour une distribution de Snédécor et un test
unilatéral

Si => rejet de au risque :

o La variance factorielle est significativement supérieure à la variance

résiduelle : les moyennes diffèrent significativement entre-elles.

→ on attribue une influence significative au facteur A étudié.

Si => rejet de au risque :

o La variance factorielle est significativement supérieure à la variance

résiduelle : les moyennes diffèrent significativement entre-elles.

→ on attribue une influence significative au facteur B étudié.

Si => rejet de au risque :

o La variance factorielle est significativement supérieure à la variance

résiduelle : les moyennes diffèrent significativement entre-elles.

→ Il existe une interaction significative d'un facteur sur l'autre.

Recherche du degré de signification p pour chaque test (recherche du risque

le plus petit possible pour conclure au rejet de )
Sinon rien ne permet de dire que les moyennes des populations ne sont pas
égales => n’est pas rejetée.

ANOVA à deux facteurs - Cas particulier où n = 1

Tableau : Tableau d'ANOVA à 2 facteurs, échantillons d'une seule valeur

Si => rejet de au risque :

o La variance factorielle est significativement supérieure à la variance

résiduelle : les moyennes diffèrent significativement entre-elles.

→ On attribue une influence significative au facteur A étudié.

Si => rejet de au risque :

o La variance factorielle est significativement supérieure à la variance

résiduelle : les moyennes diffèrent significativement entre-elles.

→ On attribue une influence significative au facteur B étudié.

Le test pour n'est pas réalisable

Recherche du degré de signification p pour chaque test (recherche du risque

le plus petit possible pour conclure au rejet de )

Sinon rien ne permet de dire que les moyennes des populations ne sont pas
égales => n’est pas rejetée.

Conclusion :
L'analyse de la variance est une méthode qui consiste à expliquer une ou plusieurs variables
quantitatives par une ou plusieurs variables qualitatives. Dans le cas d'une seule variable quantitative
on l'appelle ANOVA. S'il y en a deux ou plus, cette méthode devient la MANOVA (Mulivariates
ANalasis Of Variance). Elle est très pratique à bien plus d'égards. Les tests statistiques que l'on utilise
ici reposent sur le développement de deux estimations indépendantes de la variance de la
population. En calculant le rapport de ces deux estimations (statistique de Fisher), on développe une
règle de rejet afin de déterminer si oui ou non l'hypothèse d'égalité des moyennes des populations
doit être rejetée. Comme toute méthode statistique, elle repose en amont sur des hypothèses que
l'on doit vérifier une fois les estimateurs calculés. Le statisticien doit toujours et en tout temps être
très prudent quant à l'interprétation des résultats.

ANNEXES :
La statistique est une discipline des mathématiques qui nous permet de collecter des données, de les
traitées, de les interprétées afin de les rendre le plus compréhensibles possible pour tous, grâce à la
statistique on peut effectuer des tests et des simulations sur un échantillon de données d’une
population dans différent domaine tel que : le trafic urbain, la gestion d’un hôpital, l’évolution d’une
population, les prévisions du cours du baril de brent de pétrole ,etc. Et cela ce fait en utilisant les lois
de probabilités mathématiques discrètes tel que la loi de Bernoulli, la loi de Poissons, la loi Uniforme
discrète et la loi Multinomiale,..., etc. ou continu tel que la loi Normal, la loi de Student , la loi
Uniforme continue ,la loi Fisher et la loi de khi deux qui est l’objet de ce mémoire de licence, nous
proposons de faire un test statistique aves les test Hypothèses en utilisant la loi de khi 2 car, le test
du Khi 2 fournit une méthode pour déterminer la nature d’une répartition, qui peut être continue ou
discrète, ou bien de tester l’indépendance entre deux variables aléatoires.

Test de Khi-deux :
Le test du χ2, prononcé « khi-deux » ou « khi carré », est un test statistique permettant de tester
l’adéquation d’une série de données à une famille de lois de probabilités ou de tester l’indépendance
entre deux variables aléatoires.

Principe :
À la base d’un test statistique, il y a la formulation d’une hypothèse appelée hypothèse nulle
(ou hypothèse zéro), notée H0.
Dans le cas présent, elle suppose que les données considérées proviennent de variables
aléatoires suivant une loi de probabilité donnée, et l’on souhaite tester la validité de cette
hypothèse.
Ces données ayant été réparties en classes, il faut :
Calculer algébriquement la distance entre les données observées et les données
théoriques attendues.
Se donner a priori un risque d’erreur, celle consistant à rejeter l’hypothèse, alors
qu’elle est vraie (la valeur 5 % est souvent choisie par défaut; il s’agit plus souvent
d’une coutume que du résultat d’une réﬂexion).
Déterminer le nombre de degrés de liberté du problème à partir du nombre de
classes, et à l’aide d’une table de χ2, déduire en tenant compte du nombre de degrés
de liberté la distance critique qui a une probabilité de dépassement égale à ce risque.
Le test du Khi2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d’une
répartition, qui peut être continue ou discrète.

Domaine d’application du test :

Données qualitatives.
2 ou plusieurs échantillons.
Dépendants ou indépendants.
Comparaison d’échantillons. Recherche de liaison entre les données.
Recherche de l’inﬂuence d’une donnée autre que celle étudiée.

La démarche à suivre :
Formuler H0 (la distribution observée n’est pas diﬀérente de la distribution supposée
d’après la loi que l’on souhaite tester).
Répartir les données en classes.
Déterminer le nombre de degrés de liberté à partir du nombre de classes.
Fixer un risque de se tromper (la valeur 5 % est souvent choisie par défaut).
Calculer algébriquement la distance entre les ensembles d’informations à comparer.
Déterminer Khi2 théorique (déduire la distance critique à l’aide d’une table de χ2).
Conclure si cette distance est supérieure à la distance critique (on conclut que le résultat
n’est pas dû seulement aux ﬂuctuations d’échantillonnage).

Test du Khi-deux d’ajustement :

Objectif :
Les observations faites sur un échantillon conduisent à une certaine distribution de
fréquences. Peut-on modéliser cette distribution par un modèle théorique connu.

Méthode :
La méthode consiste à comparer l’histogramme des fréquences et la distribution de la loi de
probabilité servant du modèle théorique.
Après avoir découpé l’intervalle d’observation en k classes, on construit un indice d
mesurant l’écart constaté entre les effectifs réels et les effectifs théoriques.
Hypothèses :
Ho = la distribution observée n’est pas significativement différente de la distribution
théorique contre H1 = la distribution observée est significativement différente de la
distribution théorique.

Statistique de test :

Remarque :
Le choix et le nombre de classes est arbitraire. Cependant pour que l’approximation par la loi
du χ2 soit bonne, il est nécessaire que les effectifs théoriques dans chacune des
classessoitaumoinségalà[Link]’estpaslecas, il faut au préalable regrouper les classes
contigües afin d’avoir un effectif suffisant. La valeur de k intervenant dans le nombre de
degrés de liberté de la loi du χ2 est celle obtenue après les éventuels regroupements.

Test d’indépendance :
Lorsqu’on considère plusieurs populations auxquelles on associe le même ensemble de critères
qualitatifs, l’hypothèse à tester est l’indépendance entre la population d’appartenance de l’individu
et la valeur des critères. L’hypothèse aﬃrme donc que le fait de connaître la population d’un individu
n’inﬂuence pas la valeur des critères.

But du test :
Le test d’indépendance du chi-carré vise à déterminer si deux variables observées sur un
échantillon sont indépendantes ou non. Les variables étudiées sont des variables qualitatives
catégorielles.
Ce test s’applique lorsqu’on souhaite démontrer l’indépendance ou la dépendance de deux
critères dans une expérience.
Cetests’eﬀectuesurlabased’unetabledecontingence:plusieurséchantillonspouvant être
classés selon un certain nombre de colonnes (critère 1) et de lignes (critère 2).

Objectif :
Les observations de deux variables qualitatives faites sur un échantillon permettent de juger
l’indépendance de ces variables.

Méthodes :
La méthode consiste à comparer les effectifs réels des croisements des modalités des deux
variables qualitatives avec les effectifs théoriques qu’on devrait obtenir dans le cas
d’indépendance de ces deux variables.
On construit un indice d mesurant l’écart constaté entre les effectifs réels et les effectifs
théoriques.

Statistique de test :
Où 1 est le nombre de modalités de la 1 variable (nombre de lignes du tableau de
contingence) et c est le nombre de modalités de la 2 variable (nombre de colonnes du
tableau de contingence).

Remarque :

Où ni. Est l’eﬀectif des individus possédant la modalité i de la 1 variable et n.j l’eﬀectif des
individus possédant la modalité j des 2 variables.

Outil de développement :
Langage R :
R est un langage de programmation interactif interprété et orienté objet contenant une très
large collection de méthodes statistiques et des facilités graphiques importantes C’est un
clone gratuit du logiciel S-Plus commercialisé par MathSoft et développé par Statistical
Sciences autour du langage S (conçu par les laboratoires Bel ).
Initié dans les années 90 par Robert Gentleman et Ross Ihak a (Département de Statistique,
Université d’Auckland, Nouvelle-Zélande), auxquels sont venus depuis s’ajouter de
nombreux chercheurs, le logiciel R constitue aujourd’hui un langage de programmation
intégré d’analyse statistique.
R est un logiciel libre de traitement des données et d’analyse statistiques mettant en œuvre
le langage de programmation S. C’est un projet GNU fondé sur l’environnement développé
dans les laboratoires Bell par John Chambers et ses collègues. Depuis plusieurs années, deux
nouvelles versions apparaissent au printemps et à l’automne. Il dispose de nombreuses
fonctions graphiques.
Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la
sémantique dérivée du langage Scheme. C’est un logiciel libre distribué selon les termes de
la licence GNU GPL et est disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS X
et Windows. Il représente aujourd’hui l’un des objectifs techniques majeurs de la
communauté hacker GNU.

Exercice d’application :
Un étalon gris hétérozygote accouplé à des juments non grises produira des poulains gris
avec une probabilité de 0,25 d'après les lois de Mendel. Des juments non grises accouplées à
cet étalon et ayant produit 5 poulains ont donné les résultats suivants :

Nombre de 0 1 2 3 et plus
poulains gris sur
les 5 produits
Nombre de 10 18 16 6
juments

1. Soit X la variable aléatoire prenant pour valeur le nombre de poulains gris par jument.
Définir la loi de probabilité de X, sous l'hypothèse de Mendel.
2. A l'aide d'un test de χ² (au seuil de 5%), dire si les résultats observés permettent
d'accepter l'hypothèse de Mendel.

Corrigé :
1. Nous sommes dans le cas d'un schéma de Bernoulli (On suppose qu'il n'y a qu'un poulain
par portée): - Pour chaque poulain il y a deux éventualités contraires : soit il est gris (avec
une probabilité p = 0,25) soit il est non gris (avec une probabilité de 1 - p = 0,75)
- Les couleurs des 5 poulains d'une jument sont indépendantes et ont été obtenues dans les
mêmes conditions. Ces deux conditions nous permettent de dire que, sous l'hypothèse de
Mendel, X est de loi binomiale B (5; 0,25).
2. Il s'agit ici d'un test d'ajustement : Posons l'hypothèse nulle H 0 : Les résultats sont
conformes à la théorie. C'est-à-dire : H0 : La variable aléatoire X suit la loi binomiale B(5;
0,25).

nous allons calculer les

probabilités puis les effectifs théoriques correspondant aux diverses valeurs de X :

Nombre de 0 1 2 3 ou plus Totaux

poulains gris
sur les 5
produits
effectifs 10 18 16 6 50
observés (ni)
Probabilités 0,2373 0,3955 0,2637 0,1035 * 1
(pi)
effectifs 11,87 19,78 13,18 5,17 * 50
théoriques
(npi)

ni - npi -1,87 -1,78 2,82 0,83 0

La taille de l'échantillon est n = 50, c'est-à-dire l'effectif total.

Variable de décision :
Tous les effectifs théoriques étant supérieurs à 5, on peut dire que, sous l'hypothèse H0, la

variable suit approximativement la loi de χ² à 413 −= degrés de

Liberté (ddl).
Remarque : le Ni en majuscule signifie qu'il s'agit ici d'une variable aléatoire mais une
minuscule est tolérée.
Calcul de la valeur de K0 pour l’échantillon prélevé :

Pour 3 ddl on lit dans la table : χ0 95 2 781. , = (ce type de test est unilatéral). k0 est inférieur
à cette valeur donc on ne rejette pas H0.
Nous pouvons donc en conclure, au seuil de 5 %, que les résultats observés ne contredisent
pas la théorie.

Exercice d’application :
Afin de comparer l'action de deux levures sur une pâte à gâteaux, on prélève, pour chacune
des levures, un échantillon aléatoire de gâteaux. L'aptitude des pâtes à lever est définie par
les critères suivants : moyenne, bonne, très bonne.
Les résultats constatés sont rassemblés dans le tableau suivant :

A l'aide d'un test de χ2, au risque de 5%, peut-on conclure à une différence d'activité des
deux levures ?

Corrigé :
Il s'agit ici d'un test de comparaison de deux distributions qui se ramène à un test
d'indépendance.
Nous allons donc établir le tableau de contingences : L'effectif théorique de la classe située à

l'intersection de la i ième lignes et de la j ième colonnes est donné par

(où ni. est l'effectif total de la i ième ligne, n j . celui de la j ième colonne et n l'effectif total
soit 220).
Les effectifs théoriques notés sont en italiques :

Variable de décision :
Tous les effectifs théoriques sont supérieurs ou égaux à 5 donc, sous l’hypothèse H0, la
variable aléatoire.
La statistique est une discipline des mathématiques qui nous permet de collecter des données, de les
traitées, de les interprétées afin de les rendre le plus compréhensibles possible pour tous, grâce à la
statistique on peut effectuer des tests et des simulations sur un échantillon de données d’une
population dans différent domaine tel que : le trafic urbain, la gestion d’un hôpital, l’évolution d’une
population, les prévisions du cours du baril de brent de pétrole ,etc. Et cela ce fait en utilisant les lois
de probabilités mathématiques discrètes tel que la loi de Bernoulli, la loi de Poissons, la loi Uniforme
discrète et la loi Multinomiale,..., etc. ou continu tel que la loi Normal, la loi de Student , la loi
Uniforme continue ,la loi Fisher et la loi de khi deux qui est l’objet de ce mémoire de licence, nous
proposons de faire un test statistique aves les test Hypothèses en utilisant la loi de khi 2 car, le test
du Khi 2 fournit une méthode pour déterminer la nature d’une répartition, qui peut être continue ou
discrète, ou bien de tester l’indépendance entre deux variables aléatoires.

Domaine d’application du test :

Test du Khi-deux d’ajustement :

Vous aimerez peut-être aussi

ANOVA: Comprendre la Variance
Pas encore d'évaluation
ANOVA: Comprendre la Variance
32 pages
ANOVA : Comparaison des Classes et Nitrates
100% (1)
ANOVA : Comparaison des Classes et Nitrates
7 pages
Introduction aux Tests d'Hypothèse
Pas encore d'évaluation
Introduction aux Tests d'Hypothèse
8 pages
Test Student Polycopie
Pas encore d'évaluation
Test Student Polycopie
16 pages
Formation en Biostatistique
Pas encore d'évaluation
Formation en Biostatistique
176 pages
Corrigé des Exercices de Statistiques
Pas encore d'évaluation
Corrigé des Exercices de Statistiques
18 pages
Tests Statistiques de Comparaison
Pas encore d'évaluation
Tests Statistiques de Comparaison
1 page
Anova GC
Pas encore d'évaluation
Anova GC
5 pages
Biostatistiques 2e Année : Cours et Exercices
Pas encore d'évaluation
Biostatistiques 2e Année : Cours et Exercices
94 pages
Test Du Chi-Deux
Pas encore d'évaluation
Test Du Chi-Deux
30 pages
Introduction aux Tests d'Hypothèses
100% (1)
Introduction aux Tests d'Hypothèses
9 pages
Cours Statistique1 Test de Khi2
Pas encore d'évaluation
Cours Statistique1 Test de Khi2
15 pages
TD 8 Tests D'hypotheses L2 2019-2020
Pas encore d'évaluation
TD 8 Tests D'hypotheses L2 2019-2020
8 pages
Exercices de Régression Linéaire
Pas encore d'évaluation
Exercices de Régression Linéaire
9 pages
Introduction aux Tests d'Hypothèses
Pas encore d'évaluation
Introduction aux Tests d'Hypothèses
41 pages
Analyse Statistique et Probabilités : Exercices Pratiques
Pas encore d'évaluation
Analyse Statistique et Probabilités : Exercices Pratiques
4 pages
Estimation et Intervalle de Confiance
Pas encore d'évaluation
Estimation et Intervalle de Confiance
12 pages
Biostatistiques. Sakrani
Pas encore d'évaluation
Biostatistiques. Sakrani
77 pages
Mesures statistiques et dispersion
100% (3)
Mesures statistiques et dispersion
11 pages
Partie 1
Pas encore d'évaluation
Partie 1
44 pages
Test Khi-2 : Logique et Application SPSS
Pas encore d'évaluation
Test Khi-2 : Logique et Application SPSS
12 pages
Le Test Du Khi Deux
0% (1)
Le Test Du Khi Deux
40 pages
10.loi GEV Bchar Final 17x24
Pas encore d'évaluation
10.loi GEV Bchar Final 17x24
12 pages
Calcul des Grandeurs Statistiques en Métrologie
Pas encore d'évaluation
Calcul des Grandeurs Statistiques en Métrologie
12 pages
TD 05 2019-Correction
Pas encore d'évaluation
TD 05 2019-Correction
18 pages
Intro Aux Calculs D'erreurs Et D'incertitudes ME301 2020
Pas encore d'évaluation
Intro Aux Calculs D'erreurs Et D'incertitudes ME301 2020
21 pages
Présentation - Analyse de La Variance - ANOVA
100% (1)
Présentation - Analyse de La Variance - ANOVA
30 pages
Loi de Khi-Deux
Pas encore d'évaluation
Loi de Khi-Deux
4 pages
4 - Correlation de Pearson
Pas encore d'évaluation
4 - Correlation de Pearson
14 pages
Exercices de Statistique Avancée
Pas encore d'évaluation
Exercices de Statistique Avancée
6 pages
Analyse Factorielle en Composantes Principales
Pas encore d'évaluation
Analyse Factorielle en Composantes Principales
12 pages
09b-ANOVA Plusieurs Critres de Classification
Pas encore d'évaluation
09b-ANOVA Plusieurs Critres de Classification
50 pages
Tests Khi-Carré : Méthodes et Applications
Pas encore d'évaluation
Tests Khi-Carré : Méthodes et Applications
17 pages
Statistique Bivariée: Concepts Clés
Pas encore d'évaluation
Statistique Bivariée: Concepts Clés
25 pages
Fiches Globale - Tests Statistiques
Pas encore d'évaluation
Fiches Globale - Tests Statistiques
1 page
9comparaison de Deux Moyennes
Pas encore d'évaluation
9comparaison de Deux Moyennes
29 pages
Les Tests de Khi-Deux
100% (1)
Les Tests de Khi-Deux
32 pages
1) Statistiques Descriptives
Pas encore d'évaluation
1) Statistiques Descriptives
9 pages
Tests Statistiques en Chimie Analytique
Pas encore d'évaluation
Tests Statistiques en Chimie Analytique
6 pages
C4 Parametres Position
Pas encore d'évaluation
C4 Parametres Position
23 pages
Effets des Engrais et Densités sur le Rendement
100% (1)
Effets des Engrais et Densités sur le Rendement
8 pages
Échantillonnage et Estimation Statistique
0% (1)
Échantillonnage et Estimation Statistique
10 pages
Comparaisons multiples de moyennes
100% (1)
Comparaisons multiples de moyennes
6 pages
Tables Usuelles
100% (1)
Tables Usuelles
13 pages
Cours 3 (PowerPoint Avec Animation)
Pas encore d'évaluation
Cours 3 (PowerPoint Avec Animation)
62 pages
Biostatistiques
Pas encore d'évaluation
Biostatistiques
13 pages
Exos STA230
100% (1)
Exos STA230
60 pages
Chapitre 4 Test de Khi Deux Et Corrélation
Pas encore d'évaluation
Chapitre 4 Test de Khi Deux Et Corrélation
36 pages
Exposé - Test de Normalité
Pas encore d'évaluation
Exposé - Test de Normalité
15 pages
Tests d'hypothèses : Cours et exercices
Pas encore d'évaluation
Tests d'hypothèses : Cours et exercices
30 pages
Correction Exos Probabilités & Statistiques
Pas encore d'évaluation
Correction Exos Probabilités & Statistiques
6 pages
TD Ndeg5 Corrige
100% (1)
TD Ndeg5 Corrige
3 pages
Introduction à l'Analyse en Composante Principale
Pas encore d'évaluation
Introduction à l'Analyse en Composante Principale
30 pages
StatM1 Poly P Doukhan
Pas encore d'évaluation
StatM1 Poly P Doukhan
111 pages
Introduction à la Statistique Inférentielle
Pas encore d'évaluation
Introduction à la Statistique Inférentielle
34 pages
Anova 1710700096
Pas encore d'évaluation
Anova 1710700096
91 pages
ANOVA et MANOVA : Analyse Statistique
Pas encore d'évaluation
ANOVA et MANOVA : Analyse Statistique
4 pages
Analyses de Variance - Anova
Pas encore d'évaluation
Analyses de Variance - Anova
12 pages
Analyse de Variance : Concepts et Applications
Pas encore d'évaluation
Analyse de Variance : Concepts et Applications
17 pages
Tarifs Formation Professionnelle 2021-2022
Pas encore d'évaluation
Tarifs Formation Professionnelle 2021-2022
21 pages
Amélioration Ponctuelle Du CDG
Pas encore d'évaluation
Amélioration Ponctuelle Du CDG
37 pages
Plan D Action 2021
100% (2)
Plan D Action 2021
42 pages
E-commerce: Croissance Économique au Maroc
100% (1)
E-commerce: Croissance Économique au Maroc
38 pages
Soutien organisationnel et absentéisme
Pas encore d'évaluation
Soutien organisationnel et absentéisme
2 pages
Méthodes Agiles : Approche PUMA Essentiel
Pas encore d'évaluation
Méthodes Agiles : Approche PUMA Essentiel
38 pages
Big Data dans l'Administration
Pas encore d'évaluation
Big Data dans l'Administration
76 pages
Soubassements Théoriques Et Origine Économique de La Notion de Gouvernance
100% (2)
Soubassements Théoriques Et Origine Économique de La Notion de Gouvernance
53 pages
Thème 5 Madame Madhat
Pas encore d'évaluation
Thème 5 Madame Madhat
25 pages
Analyse du Bilan de Microcrédit
Pas encore d'évaluation
Analyse du Bilan de Microcrédit
28 pages
La Participation de L'indh Dans l'ESS À Projeter
Pas encore d'évaluation
La Participation de L'indh Dans l'ESS À Projeter
68 pages
Participation de l'INDH dans l'ESS
Pas encore d'évaluation
Participation de l'INDH dans l'ESS
45 pages
Ancrage Territorial Et Dynamique Territoriale
100% (1)
Ancrage Territorial Et Dynamique Territoriale
57 pages
Cours Serie Chronologique 4
Pas encore d'évaluation
Cours Serie Chronologique 4
12 pages
Potentiel Piscicole et Socioéconomique à Banikoara
Pas encore d'évaluation
Potentiel Piscicole et Socioéconomique à Banikoara
23 pages
TD1 Hadamard
Pas encore d'évaluation
TD1 Hadamard
33 pages
Introduction à l'analyse spatiale des données
100% (1)
Introduction à l'analyse spatiale des données
73 pages
ANOVA : Guide Complet et Applications
Pas encore d'évaluation
ANOVA : Guide Complet et Applications
17 pages
Thèse
Pas encore d'évaluation
Thèse
135 pages
DOE02.en.fr
Pas encore d'évaluation
DOE02.en.fr
5 pages
Resol Exos 11
Pas encore d'évaluation
Resol Exos 11
15 pages
Régression Logistique Pour Réponse Binaires Et Multinomiales (Logit, Probit, ...
Pas encore d'évaluation
Régression Logistique Pour Réponse Binaires Et Multinomiales (Logit, Probit, ...
6 pages
QCM Statistiques Psychologie Semestre Pair 2021/2022
Pas encore d'évaluation
QCM Statistiques Psychologie Semestre Pair 2021/2022
25 pages
PR Mourad Tounsi Enonces TD Chap 1-9 Stat'App Encg 30 10 2024
Pas encore d'évaluation
PR Mourad Tounsi Enonces TD Chap 1-9 Stat'App Encg 30 10 2024
43 pages
Correction Examen Serie Temp
100% (2)
Correction Examen Serie Temp
5 pages
Évolution de l'astigmatisme avec l'âge
Pas encore d'évaluation
Évolution de l'astigmatisme avec l'âge
13 pages
Tests de Comparaison Des Variances de Plus de Deux Échantillons Indépendants
Pas encore d'évaluation
Tests de Comparaison Des Variances de Plus de Deux Échantillons Indépendants
10 pages
Hamlaoui CFM 2019 Corrige
Pas encore d'évaluation
Hamlaoui CFM 2019 Corrige
9 pages
Modèles Probit et Logit en Économétrie
Pas encore d'évaluation
Modèles Probit et Logit en Économétrie
14 pages
Arbre de Choix Des Tests Et Fonctions R - V3 PDF
Pas encore d'évaluation
Arbre de Choix Des Tests Et Fonctions R - V3 PDF
1 page
Introduction au langage R et ses fonctions
Pas encore d'évaluation
Introduction au langage R et ses fonctions
24 pages
Minitab GPI FIN
Pas encore d'évaluation
Minitab GPI FIN
33 pages
12 - Traitement Statistique
100% (1)
12 - Traitement Statistique
106 pages
TP 4.a - ANOVA
Pas encore d'évaluation
TP 4.a - ANOVA
17 pages
Biostatistiques pour Étudiants Santé
Pas encore d'évaluation
Biostatistiques pour Étudiants Santé
57 pages
Controle Qualite Par Lots
Pas encore d'évaluation
Controle Qualite Par Lots
194 pages
ANOVA à un Facteur : Concepts et Application
Pas encore d'évaluation
ANOVA à un Facteur : Concepts et Application
6 pages
Modélisation Et Optimisation de La Photodégradation Du 4-N
Pas encore d'évaluation
Modélisation Et Optimisation de La Photodégradation Du 4-N
10 pages
Analyse Discriminante des Vins
Pas encore d'évaluation
Analyse Discriminante des Vins
46 pages
Introduction aux plans d'expérience LCA
Pas encore d'évaluation
Introduction aux plans d'expérience LCA
176 pages
Arbre Stat de Base
Pas encore d'évaluation
Arbre Stat de Base
10 pages
Méthodologie de recherche-action en éducation
Pas encore d'évaluation
Méthodologie de recherche-action en éducation
80 pages
MAT350 - Notes de Cours Et Exercices
Pas encore d'évaluation
MAT350 - Notes de Cours Et Exercices
440 pages