Lecture - Discr Ana 2025
Lecture - Discr Ana 2025
Classification supervisée
Analyse discriminante
• Courriel : dndoh2009@[Link]
• Tél. : 777540384/653754070
Machine Translated by Google
Professeur Dr. Ndoh Mbue 2 182
Objectifs
Aperçu
Ils doivent réaliser une étude de marché pour trouver les données de ces facteurs.
En s'appuyant sur l'ensemble de données, comment prédire le succès ou l'échec de ce
nouveau produit ? L' analyse discriminante est une méthode possible.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 4 184
Pour utiliser l’analyse discriminante, il faut s’assurer que les cas de données doivent
être membres de deux ou plusieurs groupes mutuellement exclusifs .
Il peut s’agir de personnes, d’animaux, de la croissance économique d’un pays à
différents moments, etc.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 6 186
Machine Translated by Google
187
Professeur Dr. Ndoh Mbue 7
Lorsque la variable critère comporte deux catégories, la technique est connue sous le nom de
La principale distinction est que dans le cas des deux groupes, il est possible de n'en dériver qu'un seul.
Cette technique peut être utilisée pour répondre à des questions telles que les suivantes :
En termes de caractéristiques démographiques, comment les clients qui
Les personnes qui font preuve de loyauté envers leur banque sontelles différentes de celles qui n'en font pas ?
Les segments de marché diffèrentils dans leurs habitudes de consommation des médias ?
Similitudes
Nombre de Un Un Un
personnes à charge
variables
Nombre de
variables Multiple Multiple Multiple
indépendantes
Différences
Nature de la
variables Métrique Métrique Catégorique
dépendantes
Nature de la
variables Catégorique Métrique Métrique
indépendantes
Machine Translated by Google
1810
Professeur Dr. Ndoh Mbue 10
Fonction discriminante :
11
Machine Translated by Google
Professeur Dr. Ndoh Mbue 12 1812
où
D = score discriminant
b 's =
coefficient ou poids discriminant
X =
prédicteur ou variable indépendante
• Les coefficients, ou poids (b), sont estimés de manière à ce que les groupes diffèrent le
plus possible sur les valeurs de la fonction discriminante.
• Cela se produit lorsque le rapport entre la somme des carrés intergroupes et la somme des
carrés intragroupes pour les scores discriminants est à son maximum.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 13 1813
• Scores discriminants. Les coefficients non standardisés sont multipliés par les valeurs
des variables. Ces produits sont additionnés et ajoutés au terme constant pour obtenir
le discriminant.
notes.
• Valeur propre. Pour chaque fonction discriminante, la valeur propre est le rapport des
sommes des carrés intergroupes et intragroupes. Des valeurs propres élevées
impliquent des fonctions supérieures.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 16 1816
• Matrice de corrélation totale. Si les cas sont traités comme s'ils provenaient d'un seul
échantillon et que les corrélations sont calculées, une matrice de corrélation totale est
obtenue.
• On peut également se faire une idée de l'importance relative des prédicteurs en examinant
les corrélations de structure, également appelées charges canoniques ou charges
discriminantes. Ces corrélations simples entre chaque prédicteur et la fonction
discriminante représentent la variance que le prédicteur partage avec la fonction.
Le pourcentage de cas dans chaque groupe défini par la variable dépendante est indiqué
dans le tableau « Probabilités antérieures pour les groupes »
Machine Translated by Google
1825
Professeur Dr. Ndoh Mbue 25
Supposons que nous ayons une seule colonne de données comme indiqué cidessous
La variance des données X peut être définie comme suit : (Comme vous le voyez, dans le cas d'une seule
données de colonne, la variance est la même que la covariance entre les mêmes données).
Machine Translated by Google
1827
Professeur Dr. Ndoh Mbue 27
Supposons maintenant que nous ayons deux ensembles de données à colonne unique comme indiqué cidessous.
Si nous calculons la variance de chaque ensemble de données séparément, elle serait la suivante.
Machine Translated by Google
1828
Professeur Dr. Ndoh Mbue 28
La covariance entre ces deux ensembles de données (deux données à une seule colonne) est
défini comme suit :
Si vous combinez les deux ensembles de données sous forme de matrice comme indiqué cidessous
La covariance apparaît sous la forme d'une matrice comme indiqué cidessous. (Puisqu'elle comporte 2 colonnes de
données, la matrice de covariance devient une matrice 2 x 2)
Machine Translated by Google
1829
Professeur Dr. Ndoh Mbue 29
Si la moyenne de chaque ensemble de données (chaque colonne) est nulle, la matrice de covariance de la
la matrice peut être calculée comme suit.
Machine Translated by Google
1830
Professeur Dr. Ndoh Mbue 30
Exemple:
Compte tenu des données cidessous :
X = 2, 4, 6, 8, 10
Y = 3, 6, 9, 12, 15
Z = 9, 7, 5, 3, 1
Solution
Nous observons d’abord les distributions sur un nuage de points
Machine Translated by Google
1832
Professeur
Professeur
[Link].
NdohNdoh
Mbue
Mbue 3232
Ainsi,
, et
Machine Translated by Google
1836
Professeur Dr. Ndoh Mbue 36
Dans cet exemple le sujet est critères diplômé pour les sélecteurs dans un
Il existe plusieurs méthodes d'analyse discriminante, mais ici nous n'utiliserons que
« Entrer les indépendants ensemble », qui est la méthode standard sélectionnée.
Bouton : Enregistrer
Cette option vous permet d'enregistrer comme nouvelles variables : Groupe prédit
appartenance, discriminatoire Les scores et Probabilités d'appartenance à un groupe .
Continuer>OK
Machine Translated by Google
Professeur Dr. Ndoh Mbue 46 1846
Une valeur propre indique la proportion de variance expliquée. (Sommes des carrés intergroupes
divisées par les sommes des carrés intragroupes). Une valeur propre élevée est associée à une
fonction forte.
La relation canonique est une corrélation entre les scores discriminants et les niveaux de la variable
dépendante. Une corrélation élevée indique une fonction bien discriminante. La corrélation actuelle de
0,583 n'est pas extrêmement élevée (1,00 est parfait).
Machine Translated by Google
Professeur Dr. Ndoh Mbue 49 1849
Le lambda de Wilks est le rapport entre les sommes des carrés intragroupes et les sommes
totales des carrés. Il s'agit de la proportion de la variance totale des scores discriminants qui n'est
pas expliquée par les différences entre les groupes.
Un lambda de 1,00 se produit lorsque les moyennes de groupe observées sont égales (toute la
variance est expliquée par des facteurs autres que la différence entre ces moyennes), tandis
qu'un petit lambda se produit lorsque la variabilité au sein des groupes est faible par rapport à la
variabilité totale.
Un petit lambda indique que les moyennes des groupes semblent différer. La valeur de signification
associée indique si la différence est significative. Ici, le lambda de 0,661 a une valeur significative
(Sig. = 0,000) ; les moyennes des groupes semblent donc différer.
Machine Translated by Google
Professeur Dr. Ndoh Mbue 50 1850
Pour cet exercice, en utilisant les données du tableau, nous allons effectuer les tâches
suivantes :
a) Définissez une fonction discriminante qui classe les étudiants entrants comme
diplômés ou non diplômés, en fonction de leur score SAT et de leur moyenne
générale au lycée.
Fonction discriminante
ŷ = b0 + b1SAT + b2GPA
Qualité de
l'ajustement Le fait que notre fonction discriminante satisfasse un critère des moindres carrés ne garantit
pas qu'elle s'adapte bien aux données ou qu'elle classera les étudiants avec précision. Pour évaluer la
qualité de l'ajustement, les chercheurs examinent le coefficient de détermination multiple (R2 ) et/ou
effectuent un test F global.
Test F global
Rappelons que la fonction discriminante a été conçue pour prédire les 0 et les
1. Ainsi, si la performance prédite (ŷ) est inférieure à 0,5, nous classons
l'élève dans le groupe des « non diplômés » ; et si elle est supérieure à 0,5,
nous classons l'élève dans le groupe des « diplômés ».
Le tableau des coefficients de régression présente les informations suivantes pour chaque
coefficient : sa valeur, son erreur type, une statistique t et sa significativité. Dans cet exemple, la
statistique t du score SAT était statistiquement significative au seuil de 0,05 ; celle de la moyenne
générale ne l'était pas. Cela signifie que le score SAT a contribué de manière significative à la
régression après prise en compte des effets de la moyenne générale.
Machine Translated by Google
1860
Professeur Dr. Ndoh Mbue 60
Exercices
1. La technique utilisée pour développer une équation permettant de prédire la valeur d'une VD
qualitative basée sur un ensemble de VI qui sont des intervalles et des
catégories est : (a)
Analyse de cluster (b) Régression
discriminante (c)
Régression logistique (d)
Analyse multivariée
(e) Analyse factorielle 2. Le nombre de cas correctement classés dans l'analyse discriminante
est donné par : (a) Le
score limite (b)
Le taux de réussite (c) Le
score discriminant
(d) La statistique F (e) Aucune de ces options
Machine Translated by Google
1861
Professeur Dr. Ndoh Mbue 61
Exercices
1. Supposons que nous souhaitions déterminer les caractéristiques principales des familles ayant visité
un lieu de villégiature au cours des deux dernières années. Les données ont été obtenues auprès d'un
échantillon prétest de 42 ménages. Parmi ceuxci, 30 ménages, présentés dans le tableau A, ont été
inclus dans l'échantillon d'analyse et les 12 autres, présentés dans le tableau B, dans l'échantillon de
validation. Les ménages ayant visité un lieu de villégiature au cours des deux dernières années ont été
codés 1 ; ceux qui n'y ont pas séjourné, 2. Les échantillons d'analyse et de validation étaient équilibrés
en termes de fréquentation. Comme on peut le constater, l'échantillon d'analyse comprend 15 ménages
dans chaque catégorie, tandis que l'échantillon de validation en comprenait six dans chaque catégorie.
Des données ont également été obtenues sur le revenu familial annuel (revenu), l'attitude envers les
voyages (voyages, mesurés sur une échelle de neuf points), l'importance accordée aux vacances en
famille (vacances, mesurées sur une échelle de neuf points), la taille du ménage (hsize) et l'âge du
chef de ménage (âge).
Machine Translated by Google
1863
Professeur Dr. Ndoh Mbue 63
Tableau A : Informations sur les visites dans les stations balnéaires : échantillon d'analyse
Machine Translated by Google
1864
Professeur Dr. Ndoh Mbue 64
Le tableau A continue
Machine Translated by Google
1865
Professeur Dr. Ndoh Mbue 65
Tableau B : Informations sur les visites dans les stations balnéaires : échantillon de validation
Machine Translated by Google
1866
Professeur Dr. Ndoh Mbue 66
2. Que les ménages qui dépensent des sommes élevées, moyennes ou faibles pour leurs
les vacances (montant) peuvent être différenciées en fonction du revenu familial annuel
(revenu), attitude envers les voyages (voyages), importance accordée aux vacances en famille
(vacances), taille du ménage (hsize) et âge du chef de ménage (age).