0% ont trouvé ce document utile (0 vote)
16 vues66 pages

Lecture - Discr Ana 2025

Ce document présente l'analyse discriminante, une technique d'analyse de données utilisée pour classifier des groupes en fonction de variables prédictives. Il décrit les objectifs, les procédures, et les applications de cette méthode, ainsi que les différences entre l'analyse à deux groupes et l'analyse discriminante multiple. Le document aborde également les statistiques associées et les étapes nécessaires pour réaliser une analyse discriminante efficace.

Transféré par

aurelesoko237
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
16 vues66 pages

Lecture - Discr Ana 2025

Ce document présente l'analyse discriminante, une technique d'analyse de données utilisée pour classifier des groupes en fonction de variables prédictives. Il décrit les objectifs, les procédures, et les applications de cette méthode, ainsi que les différences entre l'analyse à deux groupes et l'analyse discriminante multiple. Le document aborde également les statistiques associées et les étapes nécessaires pour réaliser une analyse discriminante efficace.

Transféré par

aurelesoko237
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Translated by Google

Professeur Dr. Ndoh Mbue 18­1


1

Classification supervisée
Analyse discriminante

Innocent Ndoh Mbue, Ph. D.


(Prof. en éco­informatique)

• Courriel : dndoh2009@[Link]

• Tél. : 777540384/653754070
Machine Translated by Google
Professeur Dr. Ndoh Mbue 2 18­2

Objectifs

Après avoir lu ce chapitre, vous devriez être


capable de : 1. décrire le concept d'analyse discriminante, ses objectifs e
ses applications dans diverses recherches ;
2. décrire les procédures de réalisation d'une analyse discriminante, y compris
la formulation du problème, l'estimation des coefficients de la fonction
discriminante, la détermination de la signification, l'interprétation et la
validation ; 3. discuter de l'analyse
discriminante multiple et de la distinction entre l'analyse à deux groupes et
l'analyse discriminante multiple ;
Machine Translated by Google
18­3
Professeur Dr. Ndoh Mbue 3

Aperçu

Lorsqu'une entreprise souhaite produire un nouveau type de produit, au début, les


dirigeants veulent généralement prédire si ce produit sera un succès ou non.

De nombreux facteurs influencent l’avenir de ce nouveau produit, tels que le


niveau de consommation et les habitudes de consommation des
consommateurs potentiels, l’infrastructure du pays, l’emballage, la conception
et la qualité du produit, etc.

Ils doivent réaliser une étude de marché pour trouver les données de ces facteurs.
En s'appuyant sur l'ensemble de données, comment prédire le succès ou l'échec de ce
nouveau produit ? L' analyse discriminante est une méthode possible.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 4 18­4

Analyse discriminante : définition


L'analyse discriminante est une technique d'analyse de données lorsque le critère ou la
variable dépendante est catégoriel et que les variables prédictives ou indépendantes
sont métriques, c'est­à­dire d'intervalle ou de rapport.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 5 18­5

Quand utiliser l’analyse discriminante ?

L’utilisation de cette analyse requiert certaines conditions :

1. Les données doivent provenir de groupes différents. L'appartenance à un groupe doit

être déjà connu avant le début de l'analyse.

2. Il est utilisé pour l’analyse des différences dans les groupes.

3. Il est utilisé pour la classification de nouveaux objets.

Pour utiliser l’analyse discriminante, il faut s’assurer que les cas de données doivent
être membres de deux ou plusieurs groupes mutuellement exclusifs .
Il peut s’agir de personnes, d’animaux, de la croissance économique d’un pays à
différents moments, etc.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 6 18­6
Machine Translated by Google
18­7
Professeur Dr. Ndoh Mbue 7

Techniques d'analyse discriminante

Les techniques d'analyse discriminante sont décrites par le nombre de catégories

possédé par la variable critère.

Lorsque la variable critère comporte deux catégories, la technique est connue sous le nom de

analyse discriminante à deux groupes.

Lorsque trois catégories ou plus sont impliquées, la technique est appelée


analyse discriminante multiple.

La principale distinction est que dans le cas des deux groupes, il est possible de n'en dériver qu'un seul.

fonction discriminante, mais dans l'analyse discriminante multiple, plus d'une

la fonction peut être calculée.


Machine Translated by Google
18­8
Professeur Dr. Ndoh Mbue 8

Les exemples d’analyse discriminante abondent dans la recherche.

Cette technique peut être utilisée pour répondre à des questions telles que les suivantes :
En termes de caractéristiques démographiques, comment les clients qui
Les personnes qui font preuve de loyauté envers leur banque sont­elles différentes de celles qui n'en font pas ?

Quelles caractéristiques psychographiques aident à différencier


acheteurs de produits d’épicerie sensibles et non sensibles aux prix ?

Les segments de marché diffèrent­ils dans leurs habitudes de consommation des médias ?

Quelles sont les caractéristiques distinctives des consommateurs qui


répondre aux sollicitations par publipostage ?
Machine Translated by Google
Professeur Dr. Ndoh Mbue 9 18­9

Similitudes et différences entre ANOVA,


Régression et analyse discriminante
ANOVA ANALYSE DISCRIMINANTE DE RÉGRESSION

Similitudes
Nombre de Un Un Un
personnes à charge
variables
Nombre de
variables Multiple Multiple Multiple
indépendantes

Différences
Nature de la
variables Métrique Métrique Catégorique
dépendantes
Nature de la
variables Catégorique Métrique Métrique
indépendantes
Machine Translated by Google
18­10
Professeur Dr. Ndoh Mbue 10

PCA est un algorithme non supervisé qui tente de trouver le


axes des composantes orthogonales de la variance maximale dans un ensemble de données
alors que l'objectif de LDA en tant qu'algorithme supervisé est de trouver le
sous­espace de fonctionnalités qui optimise la séparabilité des classes
Machine Translated by Google
Professeur Dr. Ndoh Mbue 18­11

Modèle d'analyse discriminante


L’analyse discriminante linéaire construit une ou plusieurs
équations discriminantes Di (combinaisons linéaires des variables
prédictives Xk ) telles que les différents groupes diffèrent autant
que possible sur D.

Fonction discriminante :

11
Machine Translated by Google
Professeur Dr. Ndoh Mbue 12 18­12

Modèle d'analyse discriminante


Le modèle d'analyse discriminante implique des combinaisons linéaires de
la forme suivante :

D = b0 + b1X1 + b2X2 + b3X3 + . . . + bkXk

D = score discriminant
b 's =
coefficient ou poids discriminant
X =
prédicteur ou variable indépendante

• Les coefficients, ou poids (b), sont estimés de manière à ce que les groupes diffèrent le
plus possible sur les valeurs de la fonction discriminante.
• Cela se produit lorsque le rapport entre la somme des carrés inter­groupes et la somme des
carrés intra­groupes pour les scores discriminants est à son maximum.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 13 18­13

Statistiques associées à l'analyse discriminante

• Corrélation canonique. La corrélation canonique mesure le degré d'association


entre les scores discriminants et les groupes. Il s'agit d'une mesure de l'association
entre la fonction discriminante unique et l'ensemble des variables muettes qui
définissent l'appartenance au groupe.

• Centroïde. Le centroïde correspond à la moyenne des scores discriminants d'un


groupe donné. Il existe autant de centroïdes que de groupes, puisqu'il y en a un
pour chaque groupe. Les moyennes d'un groupe sur toutes les fonctions sont les
centroïdes du groupe.

• Matrice de classification. Parfois appelée matrice de confusion ou de prédiction, la


matrice de classification contient le nombre de cas correctement et mal classés.
Machine Translated by Google
18­14
Professeur Dr. Ndoh Mbue 14
Machine Translated by Google
Professeur Dr. Ndoh Mbue 15 18­15

Statistiques associées à l'analyse discriminante


• Coefficients de fonction discriminante. Les coefficients de fonction discriminante (non
normalisés) sont les multiplicateurs des variables, lorsque celles­ci sont exprimées
dans leurs unités de mesure d'origine.

• Scores discriminants. Les coefficients non standardisés sont multipliés par les valeurs
des variables. Ces produits sont additionnés et ajoutés au terme constant pour obtenir
le discriminant.
notes.

• Valeur propre. Pour chaque fonction discriminante, la valeur propre est le rapport des
sommes des carrés intergroupes et intragroupes. Des valeurs propres élevées
impliquent des fonctions supérieures.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 16 18­16

Statistiques associées à l'analyse discriminante

• Valeurs F et leur significativité. Elles sont calculées à partir d'une


ANOVA à un facteur, la variable de regroupement servant de
variable indépendante catégorielle. Chaque prédicteur sert à son
tour de variable dépendante métrique dans l'ANOVA.

• Moyennes et écarts types des groupes. Ces valeurs sont calculées


pour chaque prédicteur de chaque groupe.

• Matrice de corrélation intra­groupe groupée. La matrice de


corrélation intra­groupe groupée est calculée en faisant la
moyenne des matrices de covariance distinctes pour tous les groupe
Machine Translated by Google
Professeur Dr. Ndoh Mbue 17 18­17

Statistiques associées à l'analyse discriminante


• Coefficients de fonction discriminante standardisés. Les coefficients de fonction
discriminante standardisés sont utilisés comme multiplicateurs lorsque les variables ont
été standardisées à une moyenne de 0 et une variance de 1.

• Corrélations de structure. Également appelées charges discriminantes, les corrélations


de structure représentent les corrélations simples entre les prédicteurs et la fonction
discriminante.

• Matrice de corrélation totale. Si les cas sont traités comme s'ils provenaient d'un seul
échantillon et que les corrélations sont calculées, une matrice de corrélation totale est
obtenue.

• Statistique de Wilks. Parfois aussi appelée statistique U , Pour


chaque prédicteur, le rapport entre la somme des carrés intra­groupe et la somme totale
des carrés varie de 0 à 1. Une valeur élevée (proche de 1) indique que les moyennes
du groupe ne semblent pas différentes. Une valeur faible (proche de 0) indique que les
moyennes du groupe semblent différentes.
Machine Translated by Google
18­18
Professeur Dr. Ndoh Mbue 18
Machine Translated by Google
Professeur Dr. Ndoh Mbue 19 18­19

Réalisation d'une analyse discriminante


Formuler le problème

Estimer les coefficients de la fonction discriminante

Déterminer la signification de la fonction discriminante

Interpréter les résultats

Évaluer la validité de l'analyse discriminante


Machine Translated by Google
Professeur Dr. Ndoh Mbue 20 18­20

Réalisation d'une analyse discriminante


Déterminer la signification de la fonction discriminante
• L'hypothèse nulle selon laquelle, dans la population, les moyennes de toutes
les fonctions discriminantes de tous les groupes sont égales peut être testée
statistiquement. • Dans
SPSS, ce test est basé sur le test de Wilks Si plusieurs fonctions sont
testées simultanément (comme dans le cas d'une analyse discriminante multiple
), la statistique de Wilks est le produit de la variable univariée de chaque
fonction. Le seuil de signification est estimé à partir d'une transformation du khi­
deux de la statistique.

• Si l’hypothèse nulle est rejetée, indiquant une discrimination significative, on


peut procéder à l’interprétation des résultats.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 21 18­21

Réalisation d'une analyse discriminante


Interpréter les résultats
• L’interprétation des poids discriminants, ou coefficients, est similaire à celle
de l’analyse de régression multiple.

• On peut également se faire une idée de l'importance relative des prédicteurs en examinant
les corrélations de structure, également appelées charges canoniques ou charges
discriminantes. Ces corrélations simples entre chaque prédicteur et la fonction
discriminante représentent la variance que le prédicteur partage avec la fonction.

• Une autre aide à l’interprétation des résultats de l’analyse discriminante consiste à


développer un profil caractéristique pour chaque groupe en décrivant chaque groupe en
termes de moyennes de groupe pour les variables prédictives.
Machine Translated by Google
18­22
Professeur Dr. Ndoh Mbue 22

Étapes de la conduite d'une LDA

Étape 1 : Calcul des vecteurs moyens à d dimensions


Étape 2 : Calcul des matrices de dispersion/Calcul de LDA
Vecteurs de projection

Maintenant, nous allons calculer les deux matrices de dimension 4x4 : La


matrice de dispersion intra­classe et inter­classe.

Matrice de dispersion intra­classe Sud :


Machine Translated by Google
18­23
Professeur Dr. Ndoh Mbue 23
Machine Translated by Google
18­24
Professeur Dr. Ndoh Mbue 24

Évaluation de la précision de la classification L'analyse


discriminante est utilisée sur deux ou plusieurs groupes de *sujets* ­ et non de variables !
Les sujets sont assignés à des groupes a priori, c'est­à­dire avant l' analyse.

L'analyse discriminante examine ensuite dans quelle mesure un ensemble de variables


est capable de placer chaque sujet dans le bon groupe (c'est­à­dire le groupe a priori ).

Le pourcentage de cas dans chaque groupe défini par la variable dépendante est indiqué
dans le tableau « Probabilités antérieures pour les groupes »
Machine Translated by Google
18­25
Professeur Dr. Ndoh Mbue 25

Évaluation de la précision de la prédiction de l'appartenance à un groupe : taux de réussite

Utilisé pour mesurer la forme physique du modèle


Est un critère de chance maximale
Machine Translated by Google
18­26
Professeur Dr. Ndoh Mbue 26

Matrice de covariance, variance, covariance

Supposons que nous ayons une seule colonne de données comme indiqué ci­dessous

La variance des données X peut être définie comme suit : (Comme vous le voyez, dans le cas d'une seule
données de colonne, la variance est la même que la covariance entre les mêmes données).
Machine Translated by Google
18­27
Professeur Dr. Ndoh Mbue 27

Supposons maintenant que nous ayons deux ensembles de données à colonne unique comme indiqué ci­dessous.

Si nous calculons la variance de chaque ensemble de données séparément, elle serait la suivante.
Machine Translated by Google
18­28
Professeur Dr. Ndoh Mbue 28

La covariance entre ces deux ensembles de données (deux données à une seule colonne) est
défini comme suit :

Si vous combinez les deux ensembles de données sous forme de matrice comme indiqué ci­dessous

La covariance apparaît sous la forme d'une matrice comme indiqué ci­dessous. (Puisqu'elle comporte 2 colonnes de
données, la matrice de covariance devient une matrice 2 x 2)
Machine Translated by Google
18­29
Professeur Dr. Ndoh Mbue 29

Si la moyenne de chaque ensemble de données (chaque colonne) est nulle, la matrice de covariance de la
la matrice peut être calculée comme suit.
Machine Translated by Google
18­30
Professeur Dr. Ndoh Mbue 30

Exemple:
Compte tenu des données ci­dessous :

X = 2, 4, 6, 8, 10
Y = 3, 6, 9, 12, 15
Z = 9, 7, 5, 3, 1

Obligatoire : matrice de covariance


Solution
Machine Translated by Google
18­31
Professeur Dr. Ndoh Mbue 31

Exemple numérique pratique


1. Calculez la projection discriminante linéaire pour l’ensemble de données
bidimensionnel suivant.

Exemples pour la classe ω1 :


X1=(x1,x2)={(4,2),(2,4),(2,3),(3,6),(4,4)}

Exemple pour la classe ω2 :


X2=(x1,x2)={(9,10),(6,8),(9,5),(8,7),(10,8)}

Solution
Nous observons d’abord les distributions sur un nuage de points
Machine Translated by Google
18­32
Professeur
Professeur
[Link].
NdohNdoh
Mbue
Mbue 3232

Ensuite, nous calculons les moyennes des classes :

Ensuite, nous trouvons les matrices de covariance des classes :


Pour la première classe, nous avoir
Machine Translated by Google
18­33
Professeur Dr. Ndoh Mbue 33

Pour la deuxième classe, nous avoir:

Ensuite, nous calculons la matrice de dispersion entre les classes :


Nous savons que,
Machine Translated by Google
18­34
Professeur Dr. Ndoh Mbue 34

La projection de l'analyse discriminante linéaire (LDA) est alors


obtenu comme solution du problème généralisé aux valeurs propres
Machine Translated by Google
18­35
Professeur Dr. Ndoh Mbue 35

Ainsi,

, et
Machine Translated by Google
18­36
Professeur Dr. Ndoh Mbue 36

La projection optimale est celle qui donne le maximum λ = J(w)


Alternativement,
Machine Translated by Google
18­37
Professeur Dr. Ndoh Mbue 37

Maintenant, les LDA – Projections correspondant aux valeurs propres sont :


Vecteur de projection LDA avec valeur propre = 8,8818e­016 :
Machine Translated by Google
18­38
Professeur Dr. Ndoh Mbue 38

Les classes correspondantes Pdf : en utilisant le vecteur de projection


LDA avec l'autre valeur propre = 8,8818e­016 sont :
Machine Translated by Google
18­39
Professeur Dr. Ndoh Mbue 39

Les classes correspondantes PDF : en utilisant le vecteur de projection


LDA avec l'autre valeur propre = 12,2007 sont :
Machine Translated by Google
Professeur Dr. Ndoh Mbue 40 18­40

SPSS ­ Analyses discriminantes

Fichier de données utilisé : diplômé.sav

Dans cet exemple le sujet est critères diplômé pour les sélecteurs dans un

programme, sont d'acceptation se trompent et sélectionnentles étudiants qui, à chaque


dans terminent
leurs efforts infructueux A, des informations
le diplô[Link] collectées
richesse de sur chaque
candidat avant et à l'acceptation, les
dossiers du département indiquent si l'étudiant a réussi
le cours.
complétait cet exemple avant utilisationsles information
admission à Le prédire la réussite d’un programme d’études supérieures.
fichier des étudiants admis au programme entre se compose de 50 en 7
et 11 La variable dépendante est (1 a terminé le =
y a des années. catégorie il
Ph.D., a terminé), et les
catégorie dans
variables
ces groupes.
prédictives 2 = pas 17 de prédire l'appartenance à la sont utilisé pour
Machine Translated by Google
Professeur Dr. Ndoh Mbue 41 18­41

Comment y arriver : Analyser > Classer > Discriminant


Machine Translated by Google
Professeur Dr. Ndoh Mbue 42 18­42

Saisissez d'abord la variable de regroupement (ici : catégorie de variable).


Définissez ensuite les valeurs codées minimale et maximale de la variable de
regroupement en cliquant sur Bouton > Définir la plage.
Comme la catégorie variable ne
comporte que deux niveaux, saisissez
1 et 2 dans les cases. Voir la deuxième
figure ci­dessus.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 43 18­43

Ensuite, sélectionnez les variables indépendantes (choisissez le sexe, le motif et


stable) dans la case « Indépendants : ».

Il existe plusieurs méthodes d'analyse discriminante, mais ici nous n'utiliserons que
« Entrer les indépendants ensemble », qui est la méthode standard sélectionnée.

Statistiques des boutons…


Machine Translated by Google
Professeur Dr. Ndoh Mbue 44 18­44

Vous pouvez indiquer ici les statistiques souhaitées pour l'analyse


discriminante. Il s'agit souvent de : Moyennes :
moyennes et écarts types pour chaque variable, pour chaque groupe (les
deux niveaux de catégorie dans ce cas) et pour l'ensemble de
l'échantillon.
ANOVA univariées : cela compare les valeurs moyennes de chaque
groupe pour chaque variable afin de voir s'il existe des différences
univariées significatives entre les moyennes.
Test M de Box : test d'égalité des matrices de covariance de groupe. Pour
des échantillons suffisamment grands, une valeur p non significative
signifie qu'il n'y a pas suffisamment de preuves de différence entre les
matrices. Ce test est sensible aux écarts par rapport à la normalité
multivariée.
coefficients non Fonction Coefficients : Les Classer
standardisés de l'équation discriminante basés sur les scores bruts
des variables discriminantes.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 45 18­45

Bouton : Enregistrer
Cette option vous permet d'enregistrer comme nouvelles variables : Groupe prédit
appartenance, discriminatoire Les scores et Probabilités d'appartenance à un groupe .

Continuer>OK
Machine Translated by Google
Professeur Dr. Ndoh Mbue 46 18­46

Le tableau « Tests d'égalité des moyennes des groupes » présente les


résultats des analyses de variance univariées (ANOVA) réalisées pour
chaque variable indépendante . Seule la motivation des étudiantsmotif
(variable ) diffère (sig. = 0,000) pour les deux groupes (doctorants
terminés et non terminés).
Machine Translated by Google
Professeur Dr. Ndoh Mbue 47 18­47

Test de Box des matrices d'égalité de covariance

La valeur de signification de 0,628 indique que les données ne pas


diffèrent considérablement à partir d'une normale multivariée.

Cela signifie que l’on peut procéder à l’analyse.


Machine Translated by Google
Professeur Dr. Ndoh Mbue 48 18­48

Résumé des fonctions discriminantes canoniques

Une valeur propre indique la proportion de variance expliquée. (Sommes des carrés inter­groupes
divisées par les sommes des carrés intra­groupes). Une valeur propre élevée est associée à une
fonction forte.

La relation canonique est une corrélation entre les scores discriminants et les niveaux de la variable
dépendante. Une corrélation élevée indique une fonction bien discriminante. La corrélation actuelle de
0,583 n'est pas extrêmement élevée (1,00 est parfait).
Machine Translated by Google
Professeur Dr. Ndoh Mbue 49 18­49

Le lambda de Wilks est le rapport entre les sommes des carrés intra­groupes et les sommes
totales des carrés. Il s'agit de la proportion de la variance totale des scores discriminants qui n'est
pas expliquée par les différences entre les groupes.

Un lambda de 1,00 se produit lorsque les moyennes de groupe observées sont égales (toute la
variance est expliquée par des facteurs autres que la différence entre ces moyennes), tandis
qu'un petit lambda se produit lorsque la variabilité au sein des groupes est faible par rapport à la
variabilité totale.

Un petit lambda indique que les moyennes des groupes semblent différer. La valeur de signification
associée indique si la différence est significative. Ici, le lambda de 0,661 a une valeur significative
(Sig. = 0,000) ; les moyennes des groupes semblent donc différer.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 50 18­50

Les « Coefficients de la fonction discriminante canonique »


indiquent les scores non standardisés des variables indépendantes.
Il s'agit de la liste des coefficients de l' équation discriminante non
standardisée. Le score discriminant de chaque sujet est calculé en
saisissant les valeurs de ses variables (données brutes) pour
chacune des variables de l'équation.

Z = ­8,327 .0,001*Stable + 1,169*Motif – 0,595­ Sexe

« Fonctions au centre du groupe » indique le score


discriminant moyen des sujets des deux groupes.
Plus précisément, il s'agit du score discriminant de chaque
groupe lorsque les moyennes des variables (plutôt que les
valeurs individuelles de chaque sujet) sont intégrées à l'équation
discriminante. Il est à noter que les deux scores sont égaux en
valeur absolue, mais de signes opposés.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 51 18­51

Les « Résultats de classification » sont un résumé simple du nombre et du


pourcentage de sujets correctement et incorrectement classés. La « classification
par omission » est une méthode de validation croisée, dont les résultats sont
également présentés.
Machine Translated by Google
18­52
Professeur Dr. Ndoh Mbue 52

Testez votre compréhension


Le SAT est un test d'aptitude passé par les élèves de première et de terminale du lycée.
les administrateurs utilisent le SAT ainsi que la moyenne générale du lycée (GPA) pour
prédire la réussite scolaire à l'université.
Le tableau ci­dessous montre le score SAT et la moyenne générale du lycée pour dix étudiants acceptés
à l'Acme College. Et cela montre si chaque étudiant a finalement obtenu son diplôme
collège.
Diplômé ASSIS moyenne générale

Oui 1300 2.7

Oui 1260 3.7


Oui 1220 2.9

Oui 1180 2,5

Oui 1060 3.9

Non 1140 2.1


Non 1100 3,5

Non 1020 3.3

Non 980 2.3

Non 940 3.1


Machine Translated by Google
18­53
Professeur Dr. Ndoh Mbue 53

Pour cet exercice, en utilisant les données du tableau, nous allons effectuer les tâches
suivantes :

a) Définissez une fonction discriminante qui classe les étudiants entrants comme
diplômés ou non diplômés, en fonction de leur score SAT et de leur moyenne
générale au lycée.

b) Évaluer la qualité de l’ajustement de la fonction discriminante.

c) Évaluer dans quelle mesure la fonction discriminante prédit les performances


académiques (c’est­à­dire si l’étudiant obtient son diplôme).

d) Évaluer la contribution de chaque variable indépendante (c.­à­d. SAT et


GPA) à la prédiction.
Machine Translated by Google
18­54
Professeur Dr. Ndoh Mbue 54

Fonction discriminante

La première tâche de notre analyse consiste à définir une équation de régression


linéaire des moindres carrés pour prédire les performances scolaires, en fonction du
SAT et de la moyenne générale. Cette équation constituera notre fonction
discriminante. Comme nous avons deux variables indépendantes, l'équation prend la for

ŷ = b0 + b1SAT + b2GPA

Dans cette équation, ŷ représente la performance académique prévue (c'est­à­dire


l'obtention ou non du diplôme). Les variables indépendantes sont le SAT et la moyenne
générale. Les coefficients de régression sont b0 , b1 et b2 . À droite de l'équation, les
seules inconnues sont les coefficients de régression ; pour spécifier l'équation, nous
devons donc attribuer des valeurs à ces coefficients.
Machine Translated by Google
18­55
Professeur Dr. Ndoh Mbue 55

Qualité de
l'ajustement Le fait que notre fonction discriminante satisfasse un critère des moindres carrés ne garantit
pas qu'elle s'adapte bien aux données ou qu'elle classera les étudiants avec précision. Pour évaluer la
qualité de l'ajustement, les chercheurs examinent le coefficient de détermination multiple (R2 ) et/ou
effectuent un test F global.

Coefficient de détermination multiple : Le


coefficient de détermination multiple mesure la proportion de variation de la variable dépendante qui peut
être prédite à partir de l’ensemble des variables indépendantes de l’ équation de régression. Lorsque
l’équation de régression s’ajuste bien aux données, R2 sera grand (c’est­à­dire proche de 1) ; et vice versa.
Le coefficient de détermination multiple est une sortie standard d’Excel (et de la plupart des autres logiciels
d’analyse), comme indiqué ci­dessous.
Machine Translated by Google
18­56
Professeur Dr. Ndoh Mbue 56

Test F global

Ce tableau teste la significativité statistique des variables indépendantes comme


prédicteurs de la variable dépendante. La dernière colonne du tableau présente les
résultats d'un test F global. La valeur p (0,037) est faible. Cela indique que le SAT et/ou
la moyenne générale ont un pouvoir explicatif supérieur à celui que l'on pourrait attendre
du hasard.

Comme le coefficient de corrélation multiple, le test F global trouvé dans le tableau


ANOVA suggère que l’équation de régression correspond bien aux données.
Machine Translated by Google
18­57
Professeur Dr. Ndoh Mbue 57

Validité de la fonction discriminante


Dans le monde réel, nous sommes probablement plus intéressés par la façon dont nous
pouvons classer les observations, en fonction des résultats de la fonction discriminante.
Le tableau ci­dessous montre les performances réelles des étudiants (Y) et les
performances prévues (ŷ), calculées à l'aide de la fonction discriminante.

Y ŷ ASSIS moyenne générale

1 0,97 1300 2.7


1 1,08 1260 3.7
1 0,75 1220 2.9
1 0,53 1180 2,5
1 0,48 1060 3.9
0 0,30 1140 2.1
0 0,51 1100 3,5
0 ­0,16 1020 3.3
0 0,20 980 2.3
0 ­0,10 940 3.1
Machine Translated by Google
18­58
Professeur Dr. Ndoh Mbue 58

… Validité de la fonction discriminante

Rappelons que la fonction discriminante a été conçue pour prédire les 0 et les
1. Ainsi, si la performance prédite (ŷ) est inférieure à 0,5, nous classons
l'élève dans le groupe des « non diplômés » ; et si elle est supérieure à 0,5,
nous classons l'élève dans le groupe des « diplômés ».

En comparant les performances réelles (Y) et les performances prévues (ŷ)


dans le tableau ci­dessus, nous constatons que la fonction discriminante a
correctement classé huit étudiants sur dix. Les classifications incorrectes sont
surlignées en gris. Un étudiant non diplômé a été classé à tort dans le groupe
des « diplômés », et un étudiant diplômé a été classé à tort dans le groupe
des « non diplômés ».
Machine Translated by Google
18­59
Professeur Dr. Ndoh Mbue 59

Signification des coefficients de régression. Lorsque la fonction


discriminante comporte plusieurs variables indépendantes, il est naturel de se demander si
chacune d'elles contribue significativement à la régression après prise en compte des effets des
autres variables. La réponse à cette question se trouve dans le tableau des coefficients de
régression :

Le tableau des coefficients de régression présente les informations suivantes pour chaque
coefficient : sa valeur, son erreur type, une statistique t et sa significativité. Dans cet exemple, la
statistique t du score SAT était statistiquement significative au seuil de 0,05 ; celle de la moyenne
générale ne l'était pas. Cela signifie que le score SAT a contribué de manière significative à la
régression après prise en compte des effets de la moyenne générale.
Machine Translated by Google
18­60
Professeur Dr. Ndoh Mbue 60

Exercices

1. La technique utilisée pour développer une équation permettant de prédire la valeur d'une VD
qualitative basée sur un ensemble de VI qui sont des intervalles et des
catégories est : (a)
Analyse de cluster (b) Régression
discriminante (c)
Régression logistique (d)
Analyse multivariée
(e) Analyse factorielle 2. Le nombre de cas correctement classés dans l'analyse discriminante
est donné par : (a) Le
score limite (b)
Le taux de réussite (c) Le
score discriminant
(d) La statistique F (e) Aucune de ces options
Machine Translated by Google
18­61
Professeur Dr. Ndoh Mbue 61

3. S'il y a plus de 2 catégories DV :


(a) Vous pouvez utiliser soit une analyse discriminante, soit une régression logistique
(b) Vous ne pouvez pas utiliser la régression logistique
(c) Vous ne pouvez pas utiliser d’analyse discriminante
(d) Vous devez utiliser la régression logistique
(e) Vous devez utiliser l’analyse discriminante
4. Le nombre de cas correctement classés dans l'analyse discriminante est donné par :
A ­ Le score limite B ­ Le taux de réussite D ­ La statistique F C ­ Le score discriminant
E ­ Aucune de ces réponses

5. S'il y a plus de 2 catégories de variables dépendantes :


A ­ Vous pouvez utiliser soit une analyse discriminante, soit une régression logistique
B ­ Vous ne pouvez pas utiliser la régression logistique C ­ Vous ne pouvez pas utiliser l'analyse discriminante
D ­ Vous devriez utiliser la régression logistique E ­ Vous devriez utiliser l'analyse discriminante
Machine Translated by Google
18­62
Professeur Dr. Ndoh Mbue 62

Exercices

1. Supposons que nous souhaitions déterminer les caractéristiques principales des familles ayant visité
un lieu de villégiature au cours des deux dernières années. Les données ont été obtenues auprès d'un
échantillon pré­test de 42 ménages. Parmi ceux­ci, 30 ménages, présentés dans le tableau A, ont été
inclus dans l'échantillon d'analyse et les 12 autres, présentés dans le tableau B, dans l'échantillon de
validation. Les ménages ayant visité un lieu de villégiature au cours des deux dernières années ont été
codés 1 ; ceux qui n'y ont pas séjourné, 2. Les échantillons d'analyse et de validation étaient équilibrés
en termes de fréquentation. Comme on peut le constater, l'échantillon d'analyse comprend 15 ménages
dans chaque catégorie, tandis que l'échantillon de validation en comprenait six dans chaque catégorie.
Des données ont également été obtenues sur le revenu familial annuel (revenu), l'attitude envers les
voyages (voyages, mesurés sur une échelle de neuf points), l'importance accordée aux vacances en
famille (vacances, mesurées sur une échelle de neuf points), la taille du ménage (hsize) et l'âge du
chef de ménage (âge).
Machine Translated by Google
18­63
Professeur Dr. Ndoh Mbue 63

Tableau A : Informations sur les visites dans les stations balnéaires : échantillon d'analyse
Machine Translated by Google
18­64
Professeur Dr. Ndoh Mbue 64

Le tableau A continue
Machine Translated by Google
18­65
Professeur Dr. Ndoh Mbue 65

Tableau B : Informations sur les visites dans les stations balnéaires : échantillon de validation
Machine Translated by Google
18­66
Professeur Dr. Ndoh Mbue 66

Les questions d'intérêt sont :


1. Déterminer les caractéristiques saillantes des familles qui ont visité un lieu de vacances
station balnéaire au cours des deux dernières années

2. Que les ménages qui dépensent des sommes élevées, moyennes ou faibles pour leurs
les vacances (montant) peuvent être différenciées en fonction du revenu familial annuel
(revenu), attitude envers les voyages (voyages), importance accordée aux vacances en famille
(vacances), taille du ménage (hsize) et âge du chef de ménage (age).

Rédigez vos rapports aussi clairement que possible


NB : utilisez le logiciel statistique/d'apprentissage automatique de votre
choix

Vous aimerez peut-être aussi