0% ont trouvé ce document utile (0 vote)

16 vues66 pages

Lecture - Discr Ana 2025

Ce document présente l'analyse discriminante, une technique d'analyse de données utilisée pour classifier des groupes en fonction de variables prédictives. Il décrit les objectifs, les procédures, et les applications de cette méthode, ainsi que les différences entre l'analyse à deux groupes et l'analyse discriminante multiple. Le document aborde également les statistiques associées et les étapes nécessaires pour réaliser une analyse discriminante efficace.

Transféré par

aurelesoko237

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

16 vues66 pages

Lecture - Discr Ana 2025

Transféré par

aurelesoko237

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Translated by Google

Professeur Dr. Ndoh Mbue 181

Classification supervisée
Analyse discriminante

Innocent Ndoh Mbue, Ph. D.

(Prof. en écoinformatique)

• Courriel : dndoh2009@[Link]

• Tél. : 777540384/653754070
Machine Translated by Google
Professeur Dr. Ndoh Mbue 2 182

Objectifs

Après avoir lu ce chapitre, vous devriez être

capable de : 1. décrire le concept d'analyse discriminante, ses objectifs e
ses applications dans diverses recherches ;
2. décrire les procédures de réalisation d'une analyse discriminante, y compris
la formulation du problème, l'estimation des coefficients de la fonction
discriminante, la détermination de la signification, l'interprétation et la
validation ; 3. discuter de l'analyse
discriminante multiple et de la distinction entre l'analyse à deux groupes et
l'analyse discriminante multiple ;
Machine Translated by Google
183
Professeur Dr. Ndoh Mbue 3

Aperçu

Lorsqu'une entreprise souhaite produire un nouveau type de produit, au début, les

dirigeants veulent généralement prédire si ce produit sera un succès ou non.

De nombreux facteurs influencent l’avenir de ce nouveau produit, tels que le

niveau de consommation et les habitudes de consommation des
consommateurs potentiels, l’infrastructure du pays, l’emballage, la conception
et la qualité du produit, etc.

Ils doivent réaliser une étude de marché pour trouver les données de ces facteurs.
En s'appuyant sur l'ensemble de données, comment prédire le succès ou l'échec de ce
nouveau produit ? L' analyse discriminante est une méthode possible.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 4 184

Analyse discriminante : définition

L'analyse discriminante est une technique d'analyse de données lorsque le critère ou la
variable dépendante est catégoriel et que les variables prédictives ou indépendantes
sont métriques, c'estàdire d'intervalle ou de rapport.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 5 185

Quand utiliser l’analyse discriminante ?

L’utilisation de cette analyse requiert certaines conditions :

1. Les données doivent provenir de groupes différents. L'appartenance à un groupe doit

être déjà connu avant le début de l'analyse.

2. Il est utilisé pour l’analyse des différences dans les groupes.

3. Il est utilisé pour la classification de nouveaux objets.

Pour utiliser l’analyse discriminante, il faut s’assurer que les cas de données doivent
être membres de deux ou plusieurs groupes mutuellement exclusifs .
Il peut s’agir de personnes, d’animaux, de la croissance économique d’un pays à
différents moments, etc.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 6 186
Machine Translated by Google
187
Professeur Dr. Ndoh Mbue 7

Techniques d'analyse discriminante

Les techniques d'analyse discriminante sont décrites par le nombre de catégories

possédé par la variable critère.

Lorsque la variable critère comporte deux catégories, la technique est connue sous le nom de

analyse discriminante à deux groupes.

Lorsque trois catégories ou plus sont impliquées, la technique est appelée

analyse discriminante multiple.

La principale distinction est que dans le cas des deux groupes, il est possible de n'en dériver qu'un seul.

fonction discriminante, mais dans l'analyse discriminante multiple, plus d'une

la fonction peut être calculée.

Machine Translated by Google
188
Professeur Dr. Ndoh Mbue 8

Les exemples d’analyse discriminante abondent dans la recherche.

Cette technique peut être utilisée pour répondre à des questions telles que les suivantes :
En termes de caractéristiques démographiques, comment les clients qui
Les personnes qui font preuve de loyauté envers leur banque sontelles différentes de celles qui n'en font pas ?

Quelles caractéristiques psychographiques aident à différencier

acheteurs de produits d’épicerie sensibles et non sensibles aux prix ?

Les segments de marché diffèrentils dans leurs habitudes de consommation des médias ?

Quelles sont les caractéristiques distinctives des consommateurs qui

répondre aux sollicitations par publipostage ?
Machine Translated by Google
Professeur Dr. Ndoh Mbue 9 189

Similitudes et différences entre ANOVA,

Régression et analyse discriminante
ANOVA ANALYSE DISCRIMINANTE DE RÉGRESSION

Similitudes
Nombre de Un Un Un
personnes à charge
variables
Nombre de
variables Multiple Multiple Multiple
indépendantes

Différences
Nature de la
variables Métrique Métrique Catégorique
dépendantes
Nature de la
variables Catégorique Métrique Métrique
indépendantes
Machine Translated by Google
1810
Professeur Dr. Ndoh Mbue 10

PCA est un algorithme non supervisé qui tente de trouver le

axes des composantes orthogonales de la variance maximale dans un ensemble de données
alors que l'objectif de LDA en tant qu'algorithme supervisé est de trouver le
sousespace de fonctionnalités qui optimise la séparabilité des classes
Machine Translated by Google
Professeur Dr. Ndoh Mbue 1811

Modèle d'analyse discriminante

L’analyse discriminante linéaire construit une ou plusieurs
équations discriminantes Di (combinaisons linéaires des variables
prédictives Xk ) telles que les différents groupes diffèrent autant
que possible sur D.

Fonction discriminante :

11
Machine Translated by Google
Professeur Dr. Ndoh Mbue 12 1812

Modèle d'analyse discriminante

Le modèle d'analyse discriminante implique des combinaisons linéaires de
la forme suivante :

D = b0 + b1X1 + b2X2 + b3X3 + . . . + bkXk

où

D = score discriminant
b 's =
coefficient ou poids discriminant
X =
prédicteur ou variable indépendante

• Les coefficients, ou poids (b), sont estimés de manière à ce que les groupes diffèrent le
plus possible sur les valeurs de la fonction discriminante.
• Cela se produit lorsque le rapport entre la somme des carrés intergroupes et la somme des
carrés intragroupes pour les scores discriminants est à son maximum.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 13 1813

Statistiques associées à l'analyse discriminante

• Corrélation canonique. La corrélation canonique mesure le degré d'association

entre les scores discriminants et les groupes. Il s'agit d'une mesure de l'association
entre la fonction discriminante unique et l'ensemble des variables muettes qui
définissent l'appartenance au groupe.

• Centroïde. Le centroïde correspond à la moyenne des scores discriminants d'un

groupe donné. Il existe autant de centroïdes que de groupes, puisqu'il y en a un
pour chaque groupe. Les moyennes d'un groupe sur toutes les fonctions sont les
centroïdes du groupe.

• Matrice de classification. Parfois appelée matrice de confusion ou de prédiction, la

matrice de classification contient le nombre de cas correctement et mal classés.
Machine Translated by Google
1814
Professeur Dr. Ndoh Mbue 14
Machine Translated by Google
Professeur Dr. Ndoh Mbue 15 1815

Statistiques associées à l'analyse discriminante

• Coefficients de fonction discriminante. Les coefficients de fonction discriminante (non
normalisés) sont les multiplicateurs des variables, lorsque cellesci sont exprimées
dans leurs unités de mesure d'origine.

• Scores discriminants. Les coefficients non standardisés sont multipliés par les valeurs
des variables. Ces produits sont additionnés et ajoutés au terme constant pour obtenir
le discriminant.
notes.

• Valeur propre. Pour chaque fonction discriminante, la valeur propre est le rapport des
sommes des carrés intergroupes et intragroupes. Des valeurs propres élevées
impliquent des fonctions supérieures.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 16 1816

Statistiques associées à l'analyse discriminante

• Valeurs F et leur significativité. Elles sont calculées à partir d'une

ANOVA à un facteur, la variable de regroupement servant de
variable indépendante catégorielle. Chaque prédicteur sert à son
tour de variable dépendante métrique dans l'ANOVA.

• Moyennes et écarts types des groupes. Ces valeurs sont calculées

pour chaque prédicteur de chaque groupe.

• Matrice de corrélation intragroupe groupée. La matrice de

corrélation intragroupe groupée est calculée en faisant la
moyenne des matrices de covariance distinctes pour tous les groupe
Machine Translated by Google
Professeur Dr. Ndoh Mbue 17 1817

Statistiques associées à l'analyse discriminante

• Coefficients de fonction discriminante standardisés. Les coefficients de fonction
discriminante standardisés sont utilisés comme multiplicateurs lorsque les variables ont
été standardisées à une moyenne de 0 et une variance de 1.

• Corrélations de structure. Également appelées charges discriminantes, les corrélations

de structure représentent les corrélations simples entre les prédicteurs et la fonction
discriminante.

• Matrice de corrélation totale. Si les cas sont traités comme s'ils provenaient d'un seul
échantillon et que les corrélations sont calculées, une matrice de corrélation totale est
obtenue.

• Statistique de Wilks. Parfois aussi appelée statistique U , Pour

chaque prédicteur, le rapport entre la somme des carrés intragroupe et la somme totale
des carrés varie de 0 à 1. Une valeur élevée (proche de 1) indique que les moyennes
du groupe ne semblent pas différentes. Une valeur faible (proche de 0) indique que les
moyennes du groupe semblent différentes.
Machine Translated by Google
1818
Professeur Dr. Ndoh Mbue 18
Machine Translated by Google
Professeur Dr. Ndoh Mbue 19 1819

Réalisation d'une analyse discriminante

Formuler le problème

Estimer les coefficients de la fonction discriminante

Déterminer la signification de la fonction discriminante

Interpréter les résultats

Évaluer la validité de l'analyse discriminante

Machine Translated by Google
Professeur Dr. Ndoh Mbue 20 1820

Réalisation d'une analyse discriminante

Déterminer la signification de la fonction discriminante
• L'hypothèse nulle selon laquelle, dans la population, les moyennes de toutes
les fonctions discriminantes de tous les groupes sont égales peut être testée
statistiquement. • Dans
SPSS, ce test est basé sur le test de Wilks Si plusieurs fonctions sont
testées simultanément (comme dans le cas d'une analyse discriminante multiple
), la statistique de Wilks est le produit de la variable univariée de chaque
fonction. Le seuil de signification est estimé à partir d'une transformation du khi
deux de la statistique.

• Si l’hypothèse nulle est rejetée, indiquant une discrimination significative, on

peut procéder à l’interprétation des résultats.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 21 1821

Réalisation d'une analyse discriminante

Interpréter les résultats
• L’interprétation des poids discriminants, ou coefficients, est similaire à celle
de l’analyse de régression multiple.

• On peut également se faire une idée de l'importance relative des prédicteurs en examinant
les corrélations de structure, également appelées charges canoniques ou charges
discriminantes. Ces corrélations simples entre chaque prédicteur et la fonction
discriminante représentent la variance que le prédicteur partage avec la fonction.

• Une autre aide à l’interprétation des résultats de l’analyse discriminante consiste à

développer un profil caractéristique pour chaque groupe en décrivant chaque groupe en
termes de moyennes de groupe pour les variables prédictives.
Machine Translated by Google
1822
Professeur Dr. Ndoh Mbue 22

Étapes de la conduite d'une LDA

Étape 1 : Calcul des vecteurs moyens à d dimensions

Étape 2 : Calcul des matrices de dispersion/Calcul de LDA
Vecteurs de projection

Maintenant, nous allons calculer les deux matrices de dimension 4x4 : La

matrice de dispersion intraclasse et interclasse.

Matrice de dispersion intraclasse Sud :

Machine Translated by Google
1823
Professeur Dr. Ndoh Mbue 23
Machine Translated by Google
1824
Professeur Dr. Ndoh Mbue 24

Évaluation de la précision de la classification L'analyse

discriminante est utilisée sur deux ou plusieurs groupes de *sujets* et non de variables !
Les sujets sont assignés à des groupes a priori, c'estàdire avant l' analyse.

L'analyse discriminante examine ensuite dans quelle mesure un ensemble de variables

est capable de placer chaque sujet dans le bon groupe (c'estàdire le groupe a priori ).

Le pourcentage de cas dans chaque groupe défini par la variable dépendante est indiqué
dans le tableau « Probabilités antérieures pour les groupes »
Machine Translated by Google
1825
Professeur Dr. Ndoh Mbue 25

Évaluation de la précision de la prédiction de l'appartenance à un groupe : taux de réussite

Utilisé pour mesurer la forme physique du modèle

Est un critère de chance maximale
Machine Translated by Google
1826
Professeur Dr. Ndoh Mbue 26

Matrice de covariance, variance, covariance

Supposons que nous ayons une seule colonne de données comme indiqué cidessous

La variance des données X peut être définie comme suit : (Comme vous le voyez, dans le cas d'une seule
données de colonne, la variance est la même que la covariance entre les mêmes données).
Machine Translated by Google
1827
Professeur Dr. Ndoh Mbue 27

Supposons maintenant que nous ayons deux ensembles de données à colonne unique comme indiqué cidessous.

Si nous calculons la variance de chaque ensemble de données séparément, elle serait la suivante.
Machine Translated by Google
1828
Professeur Dr. Ndoh Mbue 28

La covariance entre ces deux ensembles de données (deux données à une seule colonne) est
défini comme suit :

Si vous combinez les deux ensembles de données sous forme de matrice comme indiqué cidessous

La covariance apparaît sous la forme d'une matrice comme indiqué cidessous. (Puisqu'elle comporte 2 colonnes de
données, la matrice de covariance devient une matrice 2 x 2)
Machine Translated by Google
1829
Professeur Dr. Ndoh Mbue 29

Si la moyenne de chaque ensemble de données (chaque colonne) est nulle, la matrice de covariance de la
la matrice peut être calculée comme suit.
Machine Translated by Google
1830
Professeur Dr. Ndoh Mbue 30

Exemple:
Compte tenu des données cidessous :

X = 2, 4, 6, 8, 10
Y = 3, 6, 9, 12, 15
Z = 9, 7, 5, 3, 1

Obligatoire : matrice de covariance

Solution
Machine Translated by Google
1831
Professeur Dr. Ndoh Mbue 31

Exemple numérique pratique

1. Calculez la projection discriminante linéaire pour l’ensemble de données
bidimensionnel suivant.

Exemples pour la classe ω1 :

X1=(x1,x2)={(4,2),(2,4),(2,3),(3,6),(4,4)}

Exemple pour la classe ω2 :

X2=(x1,x2)={(9,10),(6,8),(9,5),(8,7),(10,8)}

Solution
Nous observons d’abord les distributions sur un nuage de points
Machine Translated by Google
1832
Professeur
Professeur
[Link].
NdohNdoh
Mbue
Mbue 3232

Ensuite, nous calculons les moyennes des classes :

Ensuite, nous trouvons les matrices de covariance des classes :

Pour la première classe, nous avoir
Machine Translated by Google
1833
Professeur Dr. Ndoh Mbue 33

Pour la deuxième classe, nous avoir:

Ensuite, nous calculons la matrice de dispersion entre les classes :

Nous savons que,
Machine Translated by Google
1834
Professeur Dr. Ndoh Mbue 34

La projection de l'analyse discriminante linéaire (LDA) est alors

obtenu comme solution du problème généralisé aux valeurs propres
Machine Translated by Google
1835
Professeur Dr. Ndoh Mbue 35

Ainsi,

, et
Machine Translated by Google
1836
Professeur Dr. Ndoh Mbue 36

La projection optimale est celle qui donne le maximum λ = J(w)

Alternativement,
Machine Translated by Google
1837
Professeur Dr. Ndoh Mbue 37

Maintenant, les LDA – Projections correspondant aux valeurs propres sont :

Vecteur de projection LDA avec valeur propre = 8,8818e016 :
Machine Translated by Google
1838
Professeur Dr. Ndoh Mbue 38

Les classes correspondantes Pdf : en utilisant le vecteur de projection

LDA avec l'autre valeur propre = 8,8818e016 sont :
Machine Translated by Google
1839
Professeur Dr. Ndoh Mbue 39

Les classes correspondantes PDF : en utilisant le vecteur de projection

LDA avec l'autre valeur propre = 12,2007 sont :
Machine Translated by Google
Professeur Dr. Ndoh Mbue 40 1840

SPSS Analyses discriminantes

Fichier de données utilisé : diplômé.sav

Dans cet exemple le sujet est critères diplômé pour les sélecteurs dans un

programme, sont d'acceptation se trompent et sélectionnentles étudiants qui, à chaque

dans terminent
leurs efforts infructueux A, des informations
le diplô[Link] collectées
richesse de sur chaque
candidat avant et à l'acceptation, les
dossiers du département indiquent si l'étudiant a réussi
le cours.
complétait cet exemple avant utilisationsles information
admission à Le prédire la réussite d’un programme d’études supérieures.
fichier des étudiants admis au programme entre se compose de 50 en 7
et 11 La variable dépendante est (1 a terminé le =
y a des années. catégorie il
Ph.D., a terminé), et les
catégorie dans
variables
ces groupes.
prédictives 2 = pas 17 de prédire l'appartenance à la sont utilisé pour
Machine Translated by Google
Professeur Dr. Ndoh Mbue 41 1841

Comment y arriver : Analyser > Classer > Discriminant

Machine Translated by Google
Professeur Dr. Ndoh Mbue 42 1842

Saisissez d'abord la variable de regroupement (ici : catégorie de variable).

Définissez ensuite les valeurs codées minimale et maximale de la variable de
regroupement en cliquant sur Bouton > Définir la plage.
Comme la catégorie variable ne
comporte que deux niveaux, saisissez
1 et 2 dans les cases. Voir la deuxième
figure cidessus.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 43 1843

Ensuite, sélectionnez les variables indépendantes (choisissez le sexe, le motif et

stable) dans la case « Indépendants : ».

Il existe plusieurs méthodes d'analyse discriminante, mais ici nous n'utiliserons que
« Entrer les indépendants ensemble », qui est la méthode standard sélectionnée.

Statistiques des boutons…

Machine Translated by Google
Professeur Dr. Ndoh Mbue 44 1844

Vous pouvez indiquer ici les statistiques souhaitées pour l'analyse

discriminante. Il s'agit souvent de : Moyennes :
moyennes et écarts types pour chaque variable, pour chaque groupe (les
deux niveaux de catégorie dans ce cas) et pour l'ensemble de
l'échantillon.
ANOVA univariées : cela compare les valeurs moyennes de chaque
groupe pour chaque variable afin de voir s'il existe des différences
univariées significatives entre les moyennes.
Test M de Box : test d'égalité des matrices de covariance de groupe. Pour
des échantillons suffisamment grands, une valeur p non significative
signifie qu'il n'y a pas suffisamment de preuves de différence entre les
matrices. Ce test est sensible aux écarts par rapport à la normalité
multivariée.
coefficients non Fonction Coefficients : Les Classer
standardisés de l'équation discriminante basés sur les scores bruts
des variables discriminantes.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 45 1845

Bouton : Enregistrer
Cette option vous permet d'enregistrer comme nouvelles variables : Groupe prédit
appartenance, discriminatoire Les scores et Probabilités d'appartenance à un groupe .

Continuer>OK
Machine Translated by Google
Professeur Dr. Ndoh Mbue 46 1846

Le tableau « Tests d'égalité des moyennes des groupes » présente les

résultats des analyses de variance univariées (ANOVA) réalisées pour
chaque variable indépendante . Seule la motivation des étudiantsmotif
(variable ) diffère (sig. = 0,000) pour les deux groupes (doctorants
terminés et non terminés).
Machine Translated by Google
Professeur Dr. Ndoh Mbue 47 1847

Test de Box des matrices d'égalité de covariance

La valeur de signification de 0,628 indique que les données ne pas

diffèrent considérablement à partir d'une normale multivariée.

Cela signifie que l’on peut procéder à l’analyse.

Machine Translated by Google
Professeur Dr. Ndoh Mbue 48 1848

Résumé des fonctions discriminantes canoniques

Une valeur propre indique la proportion de variance expliquée. (Sommes des carrés intergroupes
divisées par les sommes des carrés intragroupes). Une valeur propre élevée est associée à une
fonction forte.

La relation canonique est une corrélation entre les scores discriminants et les niveaux de la variable
dépendante. Une corrélation élevée indique une fonction bien discriminante. La corrélation actuelle de
0,583 n'est pas extrêmement élevée (1,00 est parfait).
Machine Translated by Google
Professeur Dr. Ndoh Mbue 49 1849

Le lambda de Wilks est le rapport entre les sommes des carrés intragroupes et les sommes
totales des carrés. Il s'agit de la proportion de la variance totale des scores discriminants qui n'est
pas expliquée par les différences entre les groupes.

Un lambda de 1,00 se produit lorsque les moyennes de groupe observées sont égales (toute la
variance est expliquée par des facteurs autres que la différence entre ces moyennes), tandis
qu'un petit lambda se produit lorsque la variabilité au sein des groupes est faible par rapport à la
variabilité totale.

Un petit lambda indique que les moyennes des groupes semblent différer. La valeur de signification
associée indique si la différence est significative. Ici, le lambda de 0,661 a une valeur significative
(Sig. = 0,000) ; les moyennes des groupes semblent donc différer.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 50 1850

Les « Coefficients de la fonction discriminante canonique »

indiquent les scores non standardisés des variables indépendantes.
Il s'agit de la liste des coefficients de l' équation discriminante non
standardisée. Le score discriminant de chaque sujet est calculé en
saisissant les valeurs de ses variables (données brutes) pour
chacune des variables de l'équation.

Z = 8,327 .0,001Stable + 1,169Motif – 0,595 Sexe

« Fonctions au centre du groupe » indique le score

discriminant moyen des sujets des deux groupes.
Plus précisément, il s'agit du score discriminant de chaque
groupe lorsque les moyennes des variables (plutôt que les
valeurs individuelles de chaque sujet) sont intégrées à l'équation
discriminante. Il est à noter que les deux scores sont égaux en
valeur absolue, mais de signes opposés.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 51 1851

Les « Résultats de classification » sont un résumé simple du nombre et du

pourcentage de sujets correctement et incorrectement classés. La « classification
par omission » est une méthode de validation croisée, dont les résultats sont
également présentés.
Machine Translated by Google
1852
Professeur Dr. Ndoh Mbue 52

Testez votre compréhension

Le SAT est un test d'aptitude passé par les élèves de première et de terminale du lycée.
les administrateurs utilisent le SAT ainsi que la moyenne générale du lycée (GPA) pour
prédire la réussite scolaire à l'université.
Le tableau cidessous montre le score SAT et la moyenne générale du lycée pour dix étudiants acceptés
à l'Acme College. Et cela montre si chaque étudiant a finalement obtenu son diplôme
collège.
Diplômé ASSIS moyenne générale

Oui 1300 2.7

Oui 1260 3.7

Oui 1220 2.9

Oui 1180 2,5

Oui 1060 3.9

Non 1140 2.1

Non 1100 3,5

Non 1020 3.3

Non 980 2.3

Non 940 3.1

Machine Translated by Google
1853
Professeur Dr. Ndoh Mbue 53

Pour cet exercice, en utilisant les données du tableau, nous allons effectuer les tâches
suivantes :

a) Définissez une fonction discriminante qui classe les étudiants entrants comme
diplômés ou non diplômés, en fonction de leur score SAT et de leur moyenne
générale au lycée.

b) Évaluer la qualité de l’ajustement de la fonction discriminante.

c) Évaluer dans quelle mesure la fonction discriminante prédit les performances

académiques (c’estàdire si l’étudiant obtient son diplôme).

d) Évaluer la contribution de chaque variable indépendante (c.àd. SAT et

GPA) à la prédiction.
Machine Translated by Google
1854
Professeur Dr. Ndoh Mbue 54

Fonction discriminante

La première tâche de notre analyse consiste à définir une équation de régression

linéaire des moindres carrés pour prédire les performances scolaires, en fonction du
SAT et de la moyenne générale. Cette équation constituera notre fonction
discriminante. Comme nous avons deux variables indépendantes, l'équation prend la for

ŷ = b0 + b1SAT + b2GPA

Dans cette équation, ŷ représente la performance académique prévue (c'estàdire

l'obtention ou non du diplôme). Les variables indépendantes sont le SAT et la moyenne
générale. Les coefficients de régression sont b0 , b1 et b2 . À droite de l'équation, les
seules inconnues sont les coefficients de régression ; pour spécifier l'équation, nous
devons donc attribuer des valeurs à ces coefficients.
Machine Translated by Google
1855
Professeur Dr. Ndoh Mbue 55

Qualité de
l'ajustement Le fait que notre fonction discriminante satisfasse un critère des moindres carrés ne garantit
pas qu'elle s'adapte bien aux données ou qu'elle classera les étudiants avec précision. Pour évaluer la
qualité de l'ajustement, les chercheurs examinent le coefficient de détermination multiple (R2 ) et/ou
effectuent un test F global.

Coefficient de détermination multiple : Le

coefficient de détermination multiple mesure la proportion de variation de la variable dépendante qui peut
être prédite à partir de l’ensemble des variables indépendantes de l’ équation de régression. Lorsque
l’équation de régression s’ajuste bien aux données, R2 sera grand (c’estàdire proche de 1) ; et vice versa.
Le coefficient de détermination multiple est une sortie standard d’Excel (et de la plupart des autres logiciels
d’analyse), comme indiqué cidessous.
Machine Translated by Google
1856
Professeur Dr. Ndoh Mbue 56

Test F global

Ce tableau teste la significativité statistique des variables indépendantes comme

prédicteurs de la variable dépendante. La dernière colonne du tableau présente les
résultats d'un test F global. La valeur p (0,037) est faible. Cela indique que le SAT et/ou
la moyenne générale ont un pouvoir explicatif supérieur à celui que l'on pourrait attendre
du hasard.

Comme le coefficient de corrélation multiple, le test F global trouvé dans le tableau

ANOVA suggère que l’équation de régression correspond bien aux données.
Machine Translated by Google
1857
Professeur Dr. Ndoh Mbue 57

Validité de la fonction discriminante

Dans le monde réel, nous sommes probablement plus intéressés par la façon dont nous
pouvons classer les observations, en fonction des résultats de la fonction discriminante.
Le tableau cidessous montre les performances réelles des étudiants (Y) et les
performances prévues (ŷ), calculées à l'aide de la fonction discriminante.

Y ŷ ASSIS moyenne générale

1 0,97 1300 2.7

1 1,08 1260 3.7
1 0,75 1220 2.9
1 0,53 1180 2,5
1 0,48 1060 3.9
0 0,30 1140 2.1
0 0,51 1100 3,5
0 0,16 1020 3.3
0 0,20 980 2.3
0 0,10 940 3.1
Machine Translated by Google
1858
Professeur Dr. Ndoh Mbue 58

… Validité de la fonction discriminante

Rappelons que la fonction discriminante a été conçue pour prédire les 0 et les
1. Ainsi, si la performance prédite (ŷ) est inférieure à 0,5, nous classons
l'élève dans le groupe des « non diplômés » ; et si elle est supérieure à 0,5,
nous classons l'élève dans le groupe des « diplômés ».

En comparant les performances réelles (Y) et les performances prévues (ŷ)

dans le tableau cidessus, nous constatons que la fonction discriminante a
correctement classé huit étudiants sur dix. Les classifications incorrectes sont
surlignées en gris. Un étudiant non diplômé a été classé à tort dans le groupe
des « diplômés », et un étudiant diplômé a été classé à tort dans le groupe
des « non diplômés ».
Machine Translated by Google
1859
Professeur Dr. Ndoh Mbue 59

Signification des coefficients de régression. Lorsque la fonction

discriminante comporte plusieurs variables indépendantes, il est naturel de se demander si
chacune d'elles contribue significativement à la régression après prise en compte des effets des
autres variables. La réponse à cette question se trouve dans le tableau des coefficients de
régression :

Le tableau des coefficients de régression présente les informations suivantes pour chaque
coefficient : sa valeur, son erreur type, une statistique t et sa significativité. Dans cet exemple, la
statistique t du score SAT était statistiquement significative au seuil de 0,05 ; celle de la moyenne
générale ne l'était pas. Cela signifie que le score SAT a contribué de manière significative à la
régression après prise en compte des effets de la moyenne générale.
Machine Translated by Google
1860
Professeur Dr. Ndoh Mbue 60

Exercices

1. La technique utilisée pour développer une équation permettant de prédire la valeur d'une VD
qualitative basée sur un ensemble de VI qui sont des intervalles et des
catégories est : (a)
Analyse de cluster (b) Régression
discriminante (c)
Régression logistique (d)
Analyse multivariée
(e) Analyse factorielle 2. Le nombre de cas correctement classés dans l'analyse discriminante
est donné par : (a) Le
score limite (b)
Le taux de réussite (c) Le
score discriminant
(d) La statistique F (e) Aucune de ces options
Machine Translated by Google
1861
Professeur Dr. Ndoh Mbue 61

3. S'il y a plus de 2 catégories DV :

(a) Vous pouvez utiliser soit une analyse discriminante, soit une régression logistique
(b) Vous ne pouvez pas utiliser la régression logistique
(c) Vous ne pouvez pas utiliser d’analyse discriminante
(d) Vous devez utiliser la régression logistique
(e) Vous devez utiliser l’analyse discriminante
4. Le nombre de cas correctement classés dans l'analyse discriminante est donné par :
A Le score limite B Le taux de réussite D La statistique F C Le score discriminant
E Aucune de ces réponses

5. S'il y a plus de 2 catégories de variables dépendantes :

A Vous pouvez utiliser soit une analyse discriminante, soit une régression logistique
B Vous ne pouvez pas utiliser la régression logistique C Vous ne pouvez pas utiliser l'analyse discriminante
D Vous devriez utiliser la régression logistique E Vous devriez utiliser l'analyse discriminante
Machine Translated by Google
1862
Professeur Dr. Ndoh Mbue 62

Exercices

1. Supposons que nous souhaitions déterminer les caractéristiques principales des familles ayant visité
un lieu de villégiature au cours des deux dernières années. Les données ont été obtenues auprès d'un
échantillon prétest de 42 ménages. Parmi ceuxci, 30 ménages, présentés dans le tableau A, ont été
inclus dans l'échantillon d'analyse et les 12 autres, présentés dans le tableau B, dans l'échantillon de
validation. Les ménages ayant visité un lieu de villégiature au cours des deux dernières années ont été
codés 1 ; ceux qui n'y ont pas séjourné, 2. Les échantillons d'analyse et de validation étaient équilibrés
en termes de fréquentation. Comme on peut le constater, l'échantillon d'analyse comprend 15 ménages
dans chaque catégorie, tandis que l'échantillon de validation en comprenait six dans chaque catégorie.
Des données ont également été obtenues sur le revenu familial annuel (revenu), l'attitude envers les
voyages (voyages, mesurés sur une échelle de neuf points), l'importance accordée aux vacances en
famille (vacances, mesurées sur une échelle de neuf points), la taille du ménage (hsize) et l'âge du
chef de ménage (âge).
Machine Translated by Google
1863
Professeur Dr. Ndoh Mbue 63

Tableau A : Informations sur les visites dans les stations balnéaires : échantillon d'analyse
Machine Translated by Google
1864
Professeur Dr. Ndoh Mbue 64

Le tableau A continue
Machine Translated by Google
1865
Professeur Dr. Ndoh Mbue 65

Tableau B : Informations sur les visites dans les stations balnéaires : échantillon de validation
Machine Translated by Google
1866
Professeur Dr. Ndoh Mbue 66

Les questions d'intérêt sont :

1. Déterminer les caractéristiques saillantes des familles qui ont visité un lieu de vacances
station balnéaire au cours des deux dernières années

2. Que les ménages qui dépensent des sommes élevées, moyennes ou faibles pour leurs
les vacances (montant) peuvent être différenciées en fonction du revenu familial annuel
(revenu), attitude envers les voyages (voyages), importance accordée aux vacances en famille
(vacances), taille du ménage (hsize) et âge du chef de ménage (age).

Rédigez vos rapports aussi clairement que possible

NB : utilisez le logiciel statistique/d'apprentissage automatique de votre
choix

Vous aimerez peut-être aussi

Analyse Discriminante (Enregistrement Automatique)
100% (1)
Analyse Discriminante (Enregistrement Automatique)
25 pages
Introduction à l'analyse discriminante
100% (1)
Introduction à l'analyse discriminante
34 pages
L'analyse Discriminante
100% (1)
L'analyse Discriminante
1 page
Analyse Discriminante
Pas encore d'évaluation
Analyse Discriminante
7 pages
Guide de l'Analyse Discriminante
Pas encore d'évaluation
Guide de l'Analyse Discriminante
21 pages
Analyse Factorielle Discriminante AFD Dans Excel
Pas encore d'évaluation
Analyse Factorielle Discriminante AFD Dans Excel
46 pages
Analyse Discriminante: Concepts et Cas Pratique
Pas encore d'évaluation
Analyse Discriminante: Concepts et Cas Pratique
5 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
21 pages
Analyse Discriminante en Marketing
Pas encore d'évaluation
Analyse Discriminante en Marketing
13 pages
Analyse Discriminante-Methodes Geometriques Cle8b864f
Pas encore d'évaluation
Analyse Discriminante-Methodes Geometriques Cle8b864f
53 pages
Afd - SPSS
Pas encore d'évaluation
Afd - SPSS
21 pages
Discriminante 042308
Pas encore d'évaluation
Discriminante 042308
25 pages
Chapitre 9 Analyse Factorielle Discriminante
Pas encore d'évaluation
Chapitre 9 Analyse Factorielle Discriminante
4 pages
Analyse Factorielle Discriminante en Santé
Pas encore d'évaluation
Analyse Factorielle Discriminante en Santé
45 pages
Analyse Discriminante Linéaire en R
Pas encore d'évaluation
Analyse Discriminante Linéaire en R
9 pages
Analyse Discriminante
Pas encore d'évaluation
Analyse Discriminante
12 pages
Analyse Factorielle
Pas encore d'évaluation
Analyse Factorielle
7 pages
Analyse Discriminante et Classification
Pas encore d'évaluation
Analyse Discriminante et Classification
20 pages
Classification et Clustering Unifiés
Pas encore d'évaluation
Classification et Clustering Unifiés
35 pages
Rsa 1973 21 2 17 0
Pas encore d'évaluation
Rsa 1973 21 2 17 0
40 pages
Analyse Canonique et Discriminante en Data Science
Pas encore d'évaluation
Analyse Canonique et Discriminante en Data Science
21 pages
Introduction au Data Mining et ses Applications
Pas encore d'évaluation
Introduction au Data Mining et ses Applications
171 pages
Scoring et Analyse Discriminante
Pas encore d'évaluation
Scoring et Analyse Discriminante
32 pages
Analyse de Données - Chapitre5
Pas encore d'évaluation
Analyse de Données - Chapitre5
33 pages
Analyse Discriminante v2
100% (1)
Analyse Discriminante v2
43 pages
Scoring, Notation Extra Financiere
Pas encore d'évaluation
Scoring, Notation Extra Financiere
15 pages
ADM04 Analyse Discriminante Et Segmentation
Pas encore d'évaluation
ADM04 Analyse Discriminante Et Segmentation
1 page
Scoring
Pas encore d'évaluation
Scoring
65 pages
Analyse Discriminante Quadratique
Pas encore d'évaluation
Analyse Discriminante Quadratique
30 pages
Statistiques et Analyse de Données Essentielles
Pas encore d'évaluation
Statistiques et Analyse de Données Essentielles
9 pages
Classification 3
Pas encore d'évaluation
Classification 3
20 pages
La Régression Logistique
Pas encore d'évaluation
La Régression Logistique
43 pages
Analyse Discriminante Probabiliste en R et SAS
Pas encore d'évaluation
Analyse Discriminante Probabiliste en R et SAS
41 pages
Analyse Factorielle Discriminante en Statistique
Pas encore d'évaluation
Analyse Factorielle Discriminante en Statistique
22 pages
Analyse Discriminante Linéaire en Statistique
100% (1)
Analyse Discriminante Linéaire en Statistique
8 pages
Chapitre 4
Pas encore d'évaluation
Chapitre 4
40 pages
Analyse discriminante en Data Mining
Pas encore d'évaluation
Analyse discriminante en Data Mining
7 pages
Scoring Sur Données D'entreprises
Pas encore d'évaluation
Scoring Sur Données D'entreprises
19 pages
Resume de Spss
Pas encore d'évaluation
Resume de Spss
6 pages
Analyse Discriminante : Méthodes et Applications
Pas encore d'évaluation
Analyse Discriminante : Méthodes et Applications
40 pages
Classification
Pas encore d'évaluation
Classification
83 pages
Cours d'Analyse des Données en Informatique
Pas encore d'évaluation
Cours d'Analyse des Données en Informatique
5 pages
Analyse Discriminante Prédictive avec R
Pas encore d'évaluation
Analyse Discriminante Prédictive avec R
6 pages
Méthodes de classification en statistiques
Pas encore d'évaluation
Méthodes de classification en statistiques
147 pages
Data Mining
Pas encore d'évaluation
Data Mining
55 pages
Data Driven (Yassine & Nouhaila)
Pas encore d'évaluation
Data Driven (Yassine & Nouhaila)
39 pages
Discrétisation des Données Numériques
Pas encore d'évaluation
Discrétisation des Données Numériques
21 pages
Cours de Data Mining Tuffery
Pas encore d'évaluation
Cours de Data Mining Tuffery
177 pages
Tuffery - Master Rennes 2013-2014 - Data Mining - Presentation PDF
Pas encore d'évaluation
Tuffery - Master Rennes 2013-2014 - Data Mining - Presentation PDF
177 pages
TD2 Simplifictation
Pas encore d'évaluation
TD2 Simplifictation
2 pages
Pétrographie et minéraux essentiels
Pas encore d'évaluation
Pétrographie et minéraux essentiels
42 pages
Corrigés Mathématiques 2021-2022
Pas encore d'évaluation
Corrigés Mathématiques 2021-2022
12 pages
Ch0 Notation Idicielle
Pas encore d'évaluation
Ch0 Notation Idicielle
14 pages
Exercices d'Électronique Numérique S1
Pas encore d'évaluation
Exercices d'Électronique Numérique S1
3 pages
Tse Physique 1 5
Pas encore d'évaluation
Tse Physique 1 5
79 pages
Exercices d'électrotechnique avancés
Pas encore d'évaluation
Exercices d'électrotechnique avancés
3 pages
Cours D'electrostatique 13 05 2023
Pas encore d'évaluation
Cours D'electrostatique 13 05 2023
26 pages
Types D'ellipsoïdes
Pas encore d'évaluation
Types D'ellipsoïdes
2 pages
Série Rotation
Pas encore d'évaluation
Série Rotation
1 page
Tableau de Bord KPI de Fabrication - Modèle Excel Someka V3 - Version Gratuite
Pas encore d'évaluation
Tableau de Bord KPI de Fabrication - Modèle Excel Someka V3 - Version Gratuite
11 pages
Les Nombres Premiers
Pas encore d'évaluation
Les Nombres Premiers
8 pages
TP Pendule Simple : Mesure de g
Pas encore d'évaluation
TP Pendule Simple : Mesure de g
4 pages
Iconographie et Phraséologie: Concepts clés
Pas encore d'évaluation
Iconographie et Phraséologie: Concepts clés
13 pages
Statique Graphique Et Calcul Analytique Pour L'analyse Des Arcs Et Des Voûtes
Pas encore d'évaluation
Statique Graphique Et Calcul Analytique Pour L'analyse Des Arcs Et Des Voûtes
32 pages
Guide Enseignant Vacataire ENSTA
Pas encore d'évaluation
Guide Enseignant Vacataire ENSTA
84 pages
CCINP Maths PC 2020 - Énoncé
Pas encore d'évaluation
CCINP Maths PC 2020 - Énoncé
7 pages
Oscillateur Harmonique Libre Amorti Par Frottements Fluides
Pas encore d'évaluation
Oscillateur Harmonique Libre Amorti Par Frottements Fluides
5 pages
(Mathématiques Et Applications) Mourad Choulli (Auth.) - Une Introduction Aux Problèmes Inverses Elliptiques Et Paraboliques-Springer Berlin Heidelberg (2009)
Pas encore d'évaluation
(Mathématiques Et Applications) Mourad Choulli (Auth.) - Une Introduction Aux Problèmes Inverses Elliptiques Et Paraboliques-Springer Berlin Heidelberg (2009)
266 pages
Technologie PDH/SDH en Transport Numérique
Pas encore d'évaluation
Technologie PDH/SDH en Transport Numérique
10 pages
Solutions AWF pour turbines et moteurs
Pas encore d'évaluation
Solutions AWF pour turbines et moteurs
12 pages
Mémoire de Master 2 Année Option:: Hydraulique Urbaine Theme
100% (1)
Mémoire de Master 2 Année Option:: Hydraulique Urbaine Theme
191 pages
Analyse de l'éssai oeudométrique avec Python
Pas encore d'évaluation
Analyse de l'éssai oeudométrique avec Python
3 pages
Évaluation d'Enseignement Scientifique 1ère
100% (1)
Évaluation d'Enseignement Scientifique 1ère
6 pages
Renforcement des Pentes par Géotextile
Pas encore d'évaluation
Renforcement des Pentes par Géotextile
62 pages
O365F Formation Office 365 PDF
Pas encore d'évaluation
O365F Formation Office 365 PDF
2 pages
DL Integrale Generalisee BTS
Pas encore d'évaluation
DL Integrale Generalisee BTS
1 page
Analyse graphique de fonctions mathématiques
Pas encore d'évaluation
Analyse graphique de fonctions mathématiques
2 pages
Ing TM STR en GC Juillet2025 - Usthb
Pas encore d'évaluation
Ing TM STR en GC Juillet2025 - Usthb
191 pages
Expose Sur Palplanche S.J.R.
Pas encore d'évaluation
Expose Sur Palplanche S.J.R.
63 pages

Lecture - Discr Ana 2025

Transféré par

Lecture - Discr Ana 2025

Transféré par

Machine Translated by Google

Professeur Dr. Ndoh Mbue 18­1

Innocent Ndoh Mbue, Ph. D.

Après avoir lu ce chapitre, vous devriez être

Lorsqu'une entreprise souhaite produire un nouveau type de produit, au début, les

De nombreux facteurs influencent l’avenir de ce nouveau produit, tels que le

Analyse discriminante : définition

Quand utiliser l’analyse discriminante ?

L’utilisation de cette analyse requiert certaines conditions :

1. Les données doivent provenir de groupes différents. L'appartenance à un groupe doit

être déjà connu avant le début de l'analyse.

2. Il est utilisé pour l’analyse des différences dans les groupes.

3. Il est utilisé pour la classification de nouveaux objets.

Techniques d'analyse discriminante

Les techniques d'analyse discriminante sont décrites par le nombre de catégories

possédé par la variable critère.

analyse discriminante à deux groupes.

Lorsque trois catégories ou plus sont impliquées, la technique est appelée

fonction discriminante, mais dans l'analyse discriminante multiple, plus d'une

la fonction peut être calculée.

Les exemples d’analyse discriminante abondent dans la recherche.

Quelles caractéristiques psychographiques aident à différencier

Quelles sont les caractéristiques distinctives des consommateurs qui

Similitudes et différences entre ANOVA,

PCA est un algorithme non supervisé qui tente de trouver le

Modèle d'analyse discriminante

Modèle d'analyse discriminante

D = b0 + b1X1 + b2X2 + b3X3 + . . . + bkXk

Statistiques associées à l'analyse discriminante

• Corrélation canonique. La corrélation canonique mesure le degré d'association

• Centroïde. Le centroïde correspond à la moyenne des scores discriminants d'un

• Matrice de classification. Parfois appelée matrice de confusion ou de prédiction, la

Statistiques associées à l'analyse discriminante

Statistiques associées à l'analyse discriminante

• Valeurs F et leur significativité. Elles sont calculées à partir d'une

• Moyennes et écarts types des groupes. Ces valeurs sont calculées

• Matrice de corrélation intra­groupe groupée. La matrice de

Statistiques associées à l'analyse discriminante

• Corrélations de structure. Également appelées charges discriminantes, les corrélations

• Statistique de Wilks. Parfois aussi appelée statistique U , Pour

Réalisation d'une analyse discriminante

Estimer les coefficients de la fonction discriminante

Déterminer la signification de la fonction discriminante

Interpréter les résultats

Évaluer la validité de l'analyse discriminante

Réalisation d'une analyse discriminante

• Si l’hypothèse nulle est rejetée, indiquant une discrimination significative, on

Réalisation d'une analyse discriminante

• Une autre aide à l’interprétation des résultats de l’analyse discriminante consiste à

Étapes de la conduite d'une LDA

Étape 1 : Calcul des vecteurs moyens à d dimensions

Maintenant, nous allons calculer les deux matrices de dimension 4x4 : La

Matrice de dispersion intra­classe Sud :

Évaluation de la précision de la classification L'analyse

L'analyse discriminante examine ensuite dans quelle mesure un ensemble de variables

Évaluation de la précision de la prédiction de l'appartenance à un groupe : taux de réussite

Utilisé pour mesurer la forme physique du modèle

Matrice de covariance, variance, covariance

Obligatoire : matrice de covariance

Exemple numérique pratique

Exemples pour la classe ω1 :

Exemple pour la classe ω2 :

Ensuite, nous calculons les moyennes des classes :

Ensuite, nous trouvons les matrices de covariance des classes :

Pour la deuxième classe, nous avoir:

Ensuite, nous calculons la matrice de dispersion entre les classes :

La projection de l'analyse discriminante linéaire (LDA) est alors

La projection optimale est celle qui donne le maximum λ = J(w)

Maintenant, les LDA – Projections correspondant aux valeurs propres sont :

Les classes correspondantes Pdf : en utilisant le vecteur de projection

Les classes correspondantes PDF : en utilisant le vecteur de projection

SPSS ­ Analyses discriminantes

Fichier de données utilisé : diplômé.sav

programme, sont d'acceptation se trompent et sélectionnentles étudiants qui, à chaque

Comment y arriver : Analyser > Classer > Discriminant

Saisissez d'abord la variable de regroupement (ici : catégorie de variable).

Professeur Dr. Ndoh Mbue 181

• Matrice de corrélation intragroupe groupée. La matrice de

Matrice de dispersion intraclasse Sud :

SPSS Analyses discriminantes

Z = 8,327 .0,001Stable + 1,169Motif – 0,595 Sexe

d) Évaluer la contribution de chaque variable indépendante (c.àd. SAT et

Dans cette équation, ŷ représente la performance académique prévue (c'estàdire