Segmentation
Segmentation
Michel Tenenhaus
1
Les données
- Numérique
Réponse : Y - Ordinale
- Nominale
découpé en 10 classes,
- Numérique puis considéré comme
Prédicteurs : X1,…, Xk - Ordinale ordinale
- Nominale
Objectif :
3
Exemple : Référendum sur la
constitution européenne
Vote Confiance
Proximité
constitution Sexe Classe d'age Dernier diplôme en son
politique
européenne avenir
Oui Femme 25-34 PS Bac+3/4 Confiant+
Oui Homme 60 et + PS < Bac Confiant-
Oui Femme 35 à 44 ans UMP Bac+3/4 Nsp
Oui Homme 45-59 PS Bac Confiant++
Oui Femme 35 à 44 ans UMP Bac+5/Grande école Confiant++
Oui Homme 25-34 UMP Bac Confiant+
Oui Femme 25-34 UMP Bac Confiant+
Oui Homme 35 à 44 ans PS Bac+5/Grande école Confiant+
Oui Femme 35 à 44 ans UDF Pas de diplôme Confiant+
Oui Homme 45-59 UDF < Bac Confiant--
Oui Homme 25-34 UMP Bac+5/Grande école Confiant+
Oui Homme 60 et + UMP < Bac Confiant+
Oui Femme 35 à 44 ans PS < Bac Confiant+
Oui Homme 18-24 UMP Bac+3/4 Confiant-
Oui Femme 35 à 44 ans PS Bac+2 Confiant-
Oui Femme 18-24 Verts Bac Confiant++
Oui Femme 60 et + UMP < Bac Confiant+
Oui Homme 35 à 44 ans PS Bac+2 Confiant+
Oui Homme 60 et + UMP < Bac Confiant+
4
C la sse d'age * Vote cons titution européenne
Sexe * Vote constitution européenne % w ithin Classe d'age
% within Sexe Vote co nstitutio n
eu ropée nne
Vote constitution
européenne N on Oui
Classe 18-24 59 .8 % 40.2%
Non Oui d'ag e 25-34 55 .8 % 44.3%
SexeHomme56.1% 43.9%
Femme 35 à 4458an s% 41.2%
.8
53.2% 46.8%
Total 45-59 59 .7 % 40.3%
54.7% 45.3%
60 et + 42 .9 % 57.1%
Tota l 54 .7 % 45.3%
Khi-deux=1.936, NS=.164
Khi-deux=43.62, NS=.000
Khi-deux=112.5, NS=.000 5
Khi-deux=536.3, NS=.000
Dernier diplôme * Vote constitution européenne
Confiance en son avenir * Vote constitution européenne
% within Dernier diplôme
Vote constitution % within Confiance en son avenir
européenne Vote constitution
Non Oui européenne
Dernier< Bac 64.5% 35.5% Non Oui
diplômeBac 55.9% 44.1% Confiance Confiant++ 30.2% 69.8%
Bac+2 48.8% 51.2% en son Confiant+ 31.7% 68.3%
Bac+3/4 42.2% 57.8% avenir Confiant- 74.1% 25.9%
Bac+5 et plus 29.6% 70.4% Confiant-- 90.7% 9.3%
Pas de diplôme66.9% 33.1% Ns p 43.3% 56.7%
NSP 50.0% 50.0% Total 54.7% 45.3%
Total 54.7% 45.3%
Model Summary
Specifications Growing Method CRT
Dependent Variable Vote constitution européenne
Independent Variables Sexe, Classe d'age, Proximité politique,
Revenu foyer, Dernier diplôme , Confiance en
son avenir
Validation None
Maximum Tree Depth 5
Minimum Cases in
50
Parent Node
Minimum Cases in
30
Child Node
Results Independent Variables Confiance en son avenir, Proximité politique,
Included Dernier diplôme , Revenu foyer, Sexe
Number of Nodes 9
Number of Terminal
5
Nodes
Depth 3
7
8
Présentation de CHAID
1. Mesures de liaison entre deux variables X et Y
X qualitative à I modalités
Nature de Y Loi sous
Test d’indépendance :
- X * Y [nij ] Modèle
Statistique utilisée
l’hypothèse
d’indépendance
- mij E (nij ) 1. Modèle d’indépendance :
n mˆ ij
2
Log (mij ) iX Yj
- 2
ij
ni.n. j Nominale 2. Modèle saturé : mˆ ij
- mˆ ij (J modalités)
i j
nij
2[(I-1)(J-1)]
n Log (mij ) iX Yj ijXY - G 2 nij Log (
2
)
mˆ ij
- mˆˆ ij estimation
i j
Test H0 : ijXY 0, i, j
3. Modèle d’association :
de mij à l'aide du Log (mij )
mˆˆ ij
Ordinale X Y
i xi ( y j y ) H 2 nij Log ( )
2
2(I-1)
modèle 3 estimé j
i j mˆ ij
Test H 0 : x1 ... xI 0
par MV
Analyse de la variance à un
Numérique F F(I-1,n-I)
facteur
9
2. Description d’une étape de CHAID sur un segment
1. Phase de fusion
10
Description d’une étape de CHAID sur un segment
2. Phase de division
Pour chaque prédicteur Xj :
11
Description d’une étape de CHAID sur un segment
- Segment pur
- Prédicteurs constants sur le segment
- Taille du segment
- Taille des segments descendants
- Profondeur de l’arbre
- Valeur de la p-value minimum
12
Étude danoise sur la prospérité (Source : Croux, 2005)
Congélateur
Numéro Secteur Revenu Age Sexe
Oui Non
1 Privé Elevé Agé Masculin 152 39
2 Public Elevé Agé Masculin 82 18
3 Privé Moyen Agé Masculin 135 31
4 Public Moyen Agé Masculin 35 12
5 Privé Bas Agé Masculin 89 45
6 Public Bas Agé Masculin 20 9
7 Privé Elevé Jeune Masculin 259 46
8 Public Elevé Jeune Masculin 101 26
9 Privé Moyen Jeune Masculin 183 55
10 Public Moyen Jeune Masculin 54 15
11 Privé Bas Jeune Masculin 108 54
12 Public Bas Jeune Masculin 22 13
13 Privé Elevé Agé Féminin 82 17
14 Public Elevé Agé Féminin 85 16
15 Privé Moyen Agé Féminin 46 16
16 Public Moyen Agé Féminin 60 11
17 Privé Bas Agé Féminin 29 29
18 Public Bas Agé Féminin 40 18
19 Privé Elevé Jeune Féminin 160 23
20 Public Elevé Jeune Féminin 152 28
21 Privé Moyen Jeune Féminin 89 17
22 Public Moyen Jeune Féminin 56 21
23 Privé Bas Jeune Féminin 57 41
24 Public Bas Jeune Féminin 34 28
13
Utilisation de CHAID pour Y binaire
Model Summary
Specifications Growing Method CHAID
Dependent Variable congelateur
Independent Variables revenu, age, sexe, secteur
Validation None
Maximum Tree Depth 3
Minimum Cases in
100
Parent Node
Minimum Cases in
50
Child Node
Results Independent Variables
revenu, sexe
Included
Number of Nodes 6
Number of Terminal
4
Nodes
Depth 2
Conséquences biologiques du
déficit en iode :
Chez l’enfant :
- Retard mental
- Troubles musculaire
- Paralysie
- Crétinisme
Chez l’adulte :
- Goitre
- Adynamie
- Crétinisme
- Hypoproductivité
16
Classification des goitres selon l ’OMS
17
L’expérimentation
N’Djiba
17 Sirablo (Témoin)
19 6
15
4 2
Sebabougou 15
5 Bamako
Woloni
7 37
Niger
18
Les données
19
Les données (en effectif)
Répartition des goitres par niveau
20
Les données (en fréquence)
Fréquence de répartition des goitres
2.4
2.6
2.2
2.4
2.0
2.2 1.8
1.6
2.0
SEXE 1.4 SEXE
1.8
Homme 1.2 Homme
JOUR JOUR
N'DJIBA SEBABOUGOU
2.6 2.6
2.4 2.4
2.2 2.2
1.8 1.8
1.6 1.6
JOUR JOUR
22
Utilisation
de CHAID
pour Y ordinale
Population des
hommes
23
Population des
femmes
24
École de Management Avancé
P
r
o
fe
ss
e
urI
n
di
ceA
g
e S
e
xeE
M
A D
o
c
to
r
atD
i
r
ect
eu
rR
ec
h
er
c
heP
éd
a
go
g
ie
1 2
0 6
0 M0 1 1 2 4
2 2
0 5
3 M0 1 1 3 3
3 2
0 5
2 M1 1 1 2 4
4 2
0 5
0 M0 1 0 5 4
5 2
0 4
8 M0 1 0 5 4
6 2
0 4
8 M1 1 1 1 4
7 1
9 5
5 M0 0 0 1 4
9
4 3 4
6 F 0 1 0 1 3
9
5 3 3
0 M 1 0 0 1 4
9
6 1 4
4 M 0 1 0 1 1
25
Utilisation de CHAID pour Y numérique
Model Summary
Specifications Growing Method CHAID
Dependent Variable Indice
Independent Variables Age, Homme, EMA, Doctorat, Directeur,
Pédagogie, Recherche
Validation None
Maximum Tree Depth 3
Minimum Cases in
10
Parent Node
Minimum Cases in
5
Child Node
Results Independent Variables
Age, EMA, Pédagogie, Recherche
Included
Number of Nodes 10
Number of Terminal
6
Nodes
Depth 3
1
Résultat : 0 i (t ) 1
J 29
Exemple
X=1 X X1 a
(0) i(0)=.49919198
(1) (2)
i(1)=.23106222 i(2)=.26634552
Diminution de l’impureté = Critère de Gini
n1 n
i (0) i (1) 2 i (2)
n n
.4992 .5108 .23106 .4892 .26635
32
.2508
Y nominale : le critère Twoing
Segment t
Effectif = nt
X=1 X X=0
2
ntg ntd
Twoing (t g , td ) 2 p( j | t g ) p( j | t d )
nt j
33
Y ordinale : le critère Ordered Twoing
Segment t
Effectif = nt
X=1 X X=0
ntg ntd
Max p(Y j | t g ) p(Y j | td )
2
Ordered Twoing (t g , td ) 2
nt
j
34
Y numérique : le critère LSD
(Least Square Deviation)
Segment t
Effectif = nt
X=1 X X=0
ntg ntd 2
(t g , td ) 2
y (t g ) y (td )
nt
35
Construction de l’arbre maximum TMax
Paid Weekly/Monthly
- Effectif segment descendant minimum = 1 Improvement=0.2508
Node 1 Node 2
Category % n Category % n
Good 84.18 133 Good 13.33 22
Bad 15.82 25 Bad 86.67 143
Total (48.92) 158 Total (51.08) 165
Young (< 25) Middle (25-35);Old ( > 35) Middle (25-35);Young (< 25) Old ( > 35)
Social Class
Improvement=0.0142
Professional Clerical;Management
Node 7 Node 8
Category % n Category % n
Good 41.46 17 Good 100.00 8 37
Bad 58.54 24 Bad 0.00 0
Total (12.69) 41 Total (2.48) 8
Les règles d’arrêt
• Les prédicteurs sont constants sur le segment.
• Le segment est pur.
• Profondeur de l’arbre égale au maximum spécifié.
• Taille du segment < minimum spécifié (ici 20).
• Taille du sous-segment < minimum spécifié (ici 5).
• Diminution de l’impureté < minimum spécifié
(ici .0001).
38
Risque global
• Chaque segment terminal est affecté
à la modalité de Y la plus fréquente
dans le segment.
39
Tableau de classification et risque global
Misclassification Matrix
Actual Category
Good Bad Total
Predicted Category Good 123 1 124
Bad 32 167 199
Total 155 168 323
Resubstitution
Risk Estimate 0.102167 33 / 323
SE of Risk Estimate 0.016852
.102167 (1 .102167)
323 40
Tableau des gains
nt
nt - Gain = Nb de réponses cibles dans le segment t
n
- Gain (%) = % de réponses cibles de l’échantillon
total dans le segment t
- Resp (%) = % de réponses cibles dans le segment t
41
Élagage (Pruning)
• On construit l’arbre maximum Tmax.
• On recherche le plus petit arbre T dont le risque
de mauvaise classification
n max nk (t )
tT
k Nb de mal classés
C (T )
n n
42
Mesure de coût-complexité C(T)
C (T ) C (T ) T
0 1 2 3 ...
44
Choix de l’arbre à retenir
- Calcul des risques de mauvaise classification
de la suite de sous-arbres :
C (Tmax ) C (T1 ) C (T2 ) ... C (Tracine )
C (Tmax ) 1 C (Tmax )
Ecart-type C (Tmax )
n
46
Les données
Température Soleil Chaleur Pluie Qualité
1 3064 1201 10 361 2
2 3000 1053 11 338 3
3 3155 1133 19 393 2
4 3085 970 4 467 3
5 3245 1258 36 294 1
6 3267 1386 35 225 1
7 3080 966 13 417 3
8 2974 1189 12 488 3
9 3038 1103 14 677 3
10 3318 1310 29 427 2
11 3317 1362 25 326 1
12 3182 1171 28 326 3
13 2998 1102 9 349 3
14 3221 1424 21 382 1
15 3019 1230 16 275 2
16 3022 1285 9 303 2
17 3094 1329 11 339 2
18 3009 1210 15 536 3
19 3227 1331 21 414 2
20 3308 1366 24 282 1
21 3212 1289 17 302 2
22 3361 1444 25 253 1
23 3061 1175 12 261 2
24 3478 1317 42 259 1
25 3126 1248 11 315 2
26 3458 1508 43 286 1
27 3252 1361 26 346 2
28 3052 1186 14 443 3
29 3270 1399 24 306 1
30 3198 1259 20 367 1
31 2904 1164 6 311 3
32 3247 1277 19 375 1
33 3083 1195 5 441 3
34 3043 1208 14 371 3 47
Arbre de taille
maximale T1
48
T2 T3
T4 T5
49
Q u e l a rb re fa u t-il c h o is ir ? C a lc u lo n s le s c o û ts d ’e rre u r d e c la s s e m e n t (o u p ro p o rtio n s d e m a l
c la s s é s ) a s s o c ié s à c e s d iffé re n ts a rb re s :
A rb re P é n a lité C o û t
T 1 = T m ax 0 2 /3 4 = .0 5 8 8
T 2 .0 2 9 4 /3 4 = .1 1 7 6
T 3 .0 5 9 6 /3 4 = .1 7 6 4
T 4 .1 4 7 1 1 /3 4 = .3 2 3 5
T 5 = T r a c in e .3 2 4 2 2 /3 4 = .6 4 7 0
.0 5 8 8 (1 .0 5 8 8 )
E T (C (T m a x )) .0 4 0 3
3 4
C (T j) C (T m a x ) E T (C (T m a x ) ) .0 5 8 8 0 .0 4 0 3 .0 9 9 1
51
Mesure de liaison entre X et Y nominale
n j (t )
2 Indépendant
i (t ) 1 p ( j | t ) 1
2
Dans CART : de la taille
j j n(t )
du segment
n j (t )
2 Diminue lorsque la
Dans SIPINA : i (t ) 1 taille du segment
j n(t ) J
augmente
53
Mesure de liaison entre X et Y nominale
Mesure de l’incertitude
sur une partition K
n(tk ) n
j k(t )
2
i ( S ) 1
S = {t1,…, tK} de k 1 n
j n(tk ) J
l’échantillon de base t0
Mesure de l’incertitude
I
ni n
ij
2
sur une partition induite par X i ( S X ) 1
SX = {t1=[X=1],…, tI=[X=I]} i 1 n j ni J
de l’échantillon de base t0
Mesure de la force
de la liaison entre X et Y : I (t0 , S X ) i (t0 ) i ( S X )
Gain sur l’incertitude 54
Description de l’algorithme SIPINA
Recherche de la partition S1
• La partition initiale S0 est formée de l’échantillon
de base.
• Le paramètre est fixé de manière automatique.
• Recherche de la variable Xj conduisant à la
meilleure partition S1, soit maximisant le gain sur
l’incertitude
I ( S0 , S X j ) i ( S0 ) i ( S X j )
55
Description de l’algorithme SIPINA
Opérations de base pour le passage
de la partition Si à Si+1
S1
Fusion :
S3
57
Exemple sur Titanic
Fusion :
58
Description de l’algorithme SIPINA
Passage de la partition Si à Si+1
• Fusion : On fusionne les deux segments de Si conduisant à une partition S'i+1
maximisant le gain sur l’incertitude I(Si,S'i+1). Si gain > 0, on pose Si+1=
S'i+1 et on repasse une étape de fusion. Sinon, passage à la phase suivante.
• Fusion-éclatement : On construit toutes les partitions obtenues par fusion de
deux segments de Si. Pour chacune de ces partitions, on recherche le prédicteur
conduisant au meilleur éclatement des deux segments fusionnés. On retient la
partition à gain sur incertitude maximum. Si cette partition est admissible, elle
définit Si+1. et on retourne à l’étape Fusion. Sinon on passe à la phase suivante.
• Éclatement : Pour chaque segment de Si, on recherche la meilleure partition
admissible obtenue par éclatement à l’aide d’un prédicteur. On retient celle qui
conduit au meilleur gain sur l’incertitude. Si cette meilleure partition admissible
existe, elle définit Si+1 et on repart en phase 1. Sinon le processus s’arrête et Si
est optimale.
59