100% ont trouvé ce document utile (1 vote)

103 vues59 pages

Segmentation

Le document présente différentes méthodes de segmentation de données comme CHAID, CART et SIPINA. Il décrit ensuite l'utilisation de la méthode CART pour segmenter les résultats d'un référendum sur la constitution européenne selon différentes variables comme le sexe, l'âge, les opinions politiques et le niveau d'études.

Transféré par

Proost N'guessan

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

103 vues59 pages

Segmentation

Transféré par

Proost N'guessan

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

Méthodes de segmentation

Michel Tenenhaus

1
Les données
- Numérique
Réponse : Y - Ordinale
- Nominale
découpé en 10 classes,
- Numérique puis considéré comme
Prédicteurs : X1,…, Xk - Ordinale ordinale
- Nominale

Objectif :

• Construire un arbre de décision à l’aide des prédicteurs.

• Les segments terminaux sont aussi purs que possible par
rapport à la réponse Y.
2
Les méthodes

• CHAID : Chi-squared Automatic

Interaction Detector
• CART : Classification And Decision Tree
• SIPINA : Système Interactif pour les
Processus d’Interrogation Non-Arborescent

3
Exemple : Référendum sur la
constitution européenne
Vote Confiance
Proximité
constitution Sexe Classe d'age Dernier diplôme en son
politique
européenne avenir
Oui Femme 25-34 PS Bac+3/4 Confiant+
Oui Homme 60 et + PS < Bac Confiant-
Oui Femme 35 à 44 ans UMP Bac+3/4 Nsp
Oui Homme 45-59 PS Bac Confiant++
Oui Femme 35 à 44 ans UMP Bac+5/Grande école Confiant++
Oui Homme 25-34 UMP Bac Confiant+
Oui Femme 25-34 UMP Bac Confiant+
Oui Homme 35 à 44 ans PS Bac+5/Grande école Confiant+
Oui Femme 35 à 44 ans UDF Pas de diplôme Confiant+
Oui Homme 45-59 UDF < Bac Confiant--
Oui Homme 25-34 UMP Bac+5/Grande école Confiant+
Oui Homme 60 et + UMP < Bac Confiant+
Oui Femme 35 à 44 ans PS < Bac Confiant+
Oui Homme 18-24 UMP Bac+3/4 Confiant-
Oui Femme 35 à 44 ans PS Bac+2 Confiant-
Oui Femme 18-24 Verts Bac Confiant++
Oui Femme 60 et + UMP < Bac Confiant+
Oui Homme 35 à 44 ans PS Bac+2 Confiant+
Oui Homme 60 et + UMP < Bac Confiant+
4
C la sse d'age * Vote cons titution européenne
Sexe * Vote constitution européenne % w ithin Classe d'age
% within Sexe Vote co nstitutio n
eu ropée nne
Vote constitution
européenne N on Oui
Classe 18-24 59 .8 % 40.2%
Non Oui d'ag e 25-34 55 .8 % 44.3%
SexeHomme56.1% 43.9%
Femme 35 à 4458an s% 41.2%
.8
53.2% 46.8%
Total 45-59 59 .7 % 40.3%
54.7% 45.3%
60 et + 42 .9 % 57.1%
Tota l 54 .7 % 45.3%
Khi-deux=1.936, NS=.164

Khi-deux=43.62, NS=.000

Proximité politique * Vote constitution européenne

Revenu foyer * Vote constitution européenne
% within Proximité politique
% within Revenu foyer
Vote constitution
Vote constitution
européenne
européenne
Non Oui
Non Oui
Proximité
EG 94.9% 5.1%
Revenu < 1 000 Euros
59.0% 41.0%
politique
PC 98.4% 1.6% foyer 1 000-1 200 €
66.0% 34.0%
PS 58.8% 41.2%
1 200-1 400 €
66.9% 33.1%
Verts 65.8% 34.2%
1 400-1 700 €
60.4% 39.6%
UDF 23.9% 76.1%
1 700-2 000 €
64.4% 35.6%
UMP 22.5% 77.5%
2 000-2 300 €
54.5% 45.5%
MPF 75.0% 25.0%
2 300-3 000 €
58.5% 41.5%
MNR 58.3% 41.7%
3 000-4 500 €
46.1% 53.9%
FN 96.8% 3.2%
> 4 500 €25.3% 74.7%
Aucun partI
71.2% 28.8%
Nsp 54.9% 45.1%
Nsp 56.9% 43.1%
Refus 37.5% 62.5%
Refus 30.0% 70.0%
Total 54.7% 45.3%
Total 54.7% 45.3%

Khi-deux=112.5, NS=.000 5
Khi-deux=536.3, NS=.000
Dernier diplôme * Vote constitution européenne
Confiance en son avenir * Vote constitution européenne
% within Dernier diplôme
Vote constitution % within Confiance en son avenir
européenne Vote constitution
Non Oui européenne
Dernier< Bac 64.5% 35.5% Non Oui
diplômeBac 55.9% 44.1% Confiance Confiant++ 30.2% 69.8%
Bac+2 48.8% 51.2% en son Confiant+ 31.7% 68.3%
Bac+3/4 42.2% 57.8% avenir Confiant- 74.1% 25.9%
Bac+5 et plus 29.6% 70.4% Confiant-- 90.7% 9.3%
Pas de diplôme66.9% 33.1% Ns p 43.3% 56.7%
NSP 50.0% 50.0% Total 54.7% 45.3%
Total 54.7% 45.3%

Khi-deux = 545.3, NS = .000

Khi-deux=123.6, NS=.000

Tableau croisé Khi-deux et p-value

Vote*Sexe 1.94 (p = .164)
Vote*Age 43.6 (p = .000)
Vote*[Proximité politique] 536.3 (p = .000)
Vote*[Revenu foyer] 112.5 (p = .000)
Vote*Diplôme 123.6 (p = .000)
Vote*[Confiance en son avenir] 545.3 (p= .000)
6
Utilisation de CART

Model Summary
Specifications Growing Method CRT
Dependent Variable Vote constitution européenne
Independent Variables Sexe, Classe d'age, Proximité politique,
Revenu foyer, Dernier diplôme , Confiance en
son avenir
Validation None
Maximum Tree Depth 5
Minimum Cases in
50
Parent Node
Minimum Cases in
30
Child Node
Results Independent Variables Confiance en son avenir, Proximité politique,
Included Dernier diplôme , Revenu foyer, Sexe
Number of Nodes 9
Number of Terminal
5
Nodes
Depth 3

Élagage avec la règle de un écart-type

7
8
Présentation de CHAID
1. Mesures de liaison entre deux variables X et Y
X qualitative à I modalités
Nature de Y Loi sous
Test d’indépendance :
- X * Y  [nij ] Modèle
Statistique utilisée
l’hypothèse
d’indépendance
- mij  E (nij ) 1. Modèle d’indépendance :
n  mˆ ij 
2
Log (mij )    iX   Yj
-  2  
ij
ni.n. j Nominale 2. Modèle saturé : mˆ ij
- mˆ ij  (J modalités)
i j

nij
2[(I-1)(J-1)]
n Log (mij )    iX   Yj  ijXY - G  2 nij Log (
2
)
mˆ ij
- mˆˆ ij  estimation
i j
Test H0 : ijXY  0, i, j
3. Modèle d’association :
de mij à l'aide du Log (mij )
mˆˆ ij
Ordinale X Y
   i    xi ( y j  y ) H  2 nij Log ( )
2
2(I-1)
modèle 3 estimé j
i j mˆ ij
Test H 0 : x1  ...  xI  0
par MV
Analyse de la variance à un
Numérique F F(I-1,n-I)
facteur

9
2. Description d’une étape de CHAID sur un segment

1. Phase de fusion

Pour chaque prédicteur Xj :

- Fusion des modalités i et i’ de Xj telles que les profils

Prob(Y/Xj=i) et Prob(Y/Xj=i’) sur le segment sont voisins.
- Si Xj est ordinale, seules des modalités adjacentes sont
autorisées à fusionner.

- D’où des nouveaux prédicteurs Xj*.

10
Description d’une étape de CHAID sur un segment

2. Phase de division
Pour chaque prédicteur Xj :

- Étude des tableaux croisés Xj*Y :

Calcul de la p-value du test d’indépendance, éventuellement corrigée pour
tenir compte du nombre de modalités (Mutiplicateur de Bonferroni).
- Sélection du prédicteur Xj* ayant la plus petite p-value et division du
segment selon ce prédicteur.

11
Description d’une étape de CHAID sur un segment

3. Règle d’arrêt basées sur des critères

- Segment pur
- Prédicteurs constants sur le segment
- Taille du segment
- Taille des segments descendants
- Profondeur de l’arbre
- Valeur de la p-value minimum

12
Étude danoise sur la prospérité (Source : Croux, 2005)

Congélateur
Numéro Secteur Revenu Age Sexe
Oui Non
1 Privé Elevé Agé Masculin 152 39
2 Public Elevé Agé Masculin 82 18
3 Privé Moyen Agé Masculin 135 31
4 Public Moyen Agé Masculin 35 12
5 Privé Bas Agé Masculin 89 45
6 Public Bas Agé Masculin 20 9
7 Privé Elevé Jeune Masculin 259 46
8 Public Elevé Jeune Masculin 101 26
9 Privé Moyen Jeune Masculin 183 55
10 Public Moyen Jeune Masculin 54 15
11 Privé Bas Jeune Masculin 108 54
12 Public Bas Jeune Masculin 22 13
13 Privé Elevé Agé Féminin 82 17
14 Public Elevé Agé Féminin 85 16
15 Privé Moyen Agé Féminin 46 16
16 Public Moyen Agé Féminin 60 11
17 Privé Bas Agé Féminin 29 29
18 Public Bas Agé Féminin 40 18
19 Privé Elevé Jeune Féminin 160 23
20 Public Elevé Jeune Féminin 152 28
21 Privé Moyen Jeune Féminin 89 17
22 Public Moyen Jeune Féminin 56 21
23 Privé Bas Jeune Féminin 57 41
24 Public Bas Jeune Féminin 34 28
13
Utilisation de CHAID pour Y binaire

Model Summary
Specifications Growing Method CHAID
Dependent Variable congelateur
Independent Variables revenu, age, sexe, secteur
Validation None
Maximum Tree Depth 3
Minimum Cases in
100
Parent Node
Minimum Cases in
50
Child Node
Results Independent Variables
revenu, sexe
Included
Number of Nodes 6
Number of Terminal
4
Nodes
Depth 2

Pas de correction de Bonferroni

14
15
Étude Mali
Test de l’efficacité du diffuseur d’iode RHODIFUSE

Conséquences biologiques du
déficit en iode :
Chez l’enfant :
- Retard mental
- Troubles musculaire
- Paralysie
- Crétinisme

Chez l’adulte :
- Goitre
- Adynamie
- Crétinisme
- Hypoproductivité

16
Classification des goitres selon l ’OMS

• Groupe 0 : Thyroïde non palpable, ou palpable mais dont les

lobes sont de volume inférieur à la phalange distale du pouce
du sujet.
• Groupe 1A : Nettement palpable, et dont les lobes ont un
volume supérieur à la phalange distale du pouce du sujet, non
visible lorsque la tête est en extension.
• Groupe 1B : Idem, mais visible en extension du cou, mais non
visible en position normale.
• Groupe 2 : Thyroïde nettement visible lorsque la tête est en
position normale.
• Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5
mètres.

17
L’expérimentation
N’Djiba

17 Sirablo (Témoin)

19 6
15
4 2
Sebabougou 15
5 Bamako
Woloni

7 37
Niger

18
Les données

• Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II

• X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni

3 = N ’Djiba, 4 = Sebabougou

• X2 = Sexe : 1 = Homme, 2 = Femme

• X3 = Jour : 0 = 0, 1 = 180, 2 = 360

• X4 = Iode : 1 = Absence, 2 = Présence

19
Les données (en effectif)
Répartition des goitres par niveau

VILLAGE SEXE JOUR IODE G1 G2 G3 G4 Total

1 Sirablo Homme 0 Absence 106 12 46 11 175
2 Sirablo Homme 180 Absence 60 31 46 15 152
3 Sirablo Homme 360 Absence 64 23 50 14 151
4 Sirablo Femme 0 Absence 77 21 71 65 234
5 Sirablo Femme 180 Absence 46 28 63 65 202
6 Sirablo Femme 360 Absence 44 29 67 57 197
7 Woloni Homme 0 Absence 127 27 45 12 211
8 Woloni Homme 180 Présence 145 28 19 1 193
9 Woloni Homme 360 Présence 161 16 12 2 191
10 Woloni Femme 0 Absence 69 21 65 50 205
11 Woloni Femme 180 Présence 76 40 41 13 170
12 Woloni Femme 360 Présence 89 28 33 10 160
13 N'Djiba Homme 0 Absence 91 8 14 6 119
14 N'Djiba Homme 180 Présence 94 14 10 0 118
15 N'Djiba Homme 360 Présence 99 7 12 0 118
16 N'Djiba Femme 0 Absence 42 18 45 34 139
17 N'Djiba Femme 180 Présence 50 29 38 13 130
18 N'Djiba Femme 360 Présence 67 18 32 6 123
19 Sebabougou Homme 0 Absence 112 47 30 13 202
20 Sebabougou Homme 180 Présence 155 26 10 1 192
21 Sebabougou Homme 360 Présence 171 12 12 2 197
22 Sebabougou Femme 0 Absence 86 40 47 55 228
23 Sebabougou Femme 180 Présence 119 26 39 18 202
24 Sebabougou Femme 360 Présence 132 12 41 22 207

20
Les données (en fréquence)
Fréquence de répartition des goitres

VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4

1 Sirablo Homme 0 Absence .61 .07 .26 .06
2 Sirablo Homme 180 Absence .39 .20 .30 .10
3 Sirablo Homme 360 Absence .42 .15 .33 .09
4 Sirablo Femme 0 Absence .33 .09 .30 .28
5 Sirablo Femme 180 Absence .23 .14 .31 .32
6 Sirablo Femme 360 Absence .22 .15 .34 .29
7 Woloni Homme 0 Absence .60 .13 .21 .06
8 Woloni Homme 180 Présence .75 .15 .10 .01
9 Woloni Homme 360 Présence .84 .08 .06 .01
10 Woloni Femme 0 Absence .34 .10 .32 .24
11 Woloni Femme 180 Présence .45 .24 .24 .08
12 Woloni Femme 360 Présence .56 .18 .21 .06
13 N'Djiba Homme 0 Absence .76 .07 .12 .05
14 N'Djiba Homme 180 Présence .80 .12 .08 .00
15 N'Djiba Homme 360 Présence .84 .06 .10 .00
16 N'Djiba Femme 0 Absence .30 .13 .32 .24
17 N'Djiba Femme 180 Présence .38 .22 .29 .10
18 N'Djiba Femme 360 Présence .54 .15 .26 .05
19 Sebabougou Homme 0 Absence .55 .23 .15 .06
20 Sebabougou Homme 180 Présence .81 .14 .05 .01
21 Sebabougou Homme 360 Présence .87 .06 .06 .01
22 Sebabougou Femme 0 Absence .38 .18 .21 .24
23 Sebabougou Femme 180 Présence .59 .13 .19 .09
24 Sebabougou Femme 360 Présence .64 .06 .20 .11
21
Évolution des niveaux moyens de goitre
SIRABLO (Témoin) WOLONI
2.8 2.6

2.4
2.6
2.2

2.4
2.0

Niveau moyen de goitre

2.2 1.8

1.6
2.0
SEXE 1.4 SEXE
1.8
Homme 1.2 Homme

1.6 Femme 1.0 Femme

0 180 360 0 180 360

JOUR JOUR

N'DJIBA SEBABOUGOU
2.6 2.6

2.4 2.4

2.2 2.2

2.0 Niveau moyen de goitre 2.0

Niveau moyen de goitre

1.8 1.8

1.6 1.6

1.4 SEXE 1.4 SEXE

1.2 Homme 1.2 Homme

1.0 Femme 1.0 Femme

0 180 360 0 180 360

JOUR JOUR
22
Utilisation
de CHAID
pour Y ordinale
Population des
hommes

23
Population des
femmes

24
École de Management Avancé

P
r
o
fe
ss
e
urI
n
di
ceA
g
e S
e
xeE
M
A D
o
c
to
r
atD
i
r
ect
eu
rR
ec
h
er
c
heP
éd
a
go
g
ie
1 2
0 6
0 M0 1 1 2 4
2 2
0 5
3 M0 1 1 3 3
3 2
0 5
2 M1 1 1 2 4
4 2
0 5
0 M0 1 0 5 4
5 2
0 4
8 M0 1 0 5 4
6 2
0 4
8 M1 1 1 1 4
7 1
9 5
5 M0 0 0 1 4
        
9
4 3 4
6 F 0 1 0 1 3
9
5 3 3
0 M 1 0 0 1 4
9
6 1 4
4 M 0 1 0 1 1

25
Utilisation de CHAID pour Y numérique
Model Summary
Specifications Growing Method CHAID
Dependent Variable Indice
Independent Variables Age, Homme, EMA, Doctorat, Directeur,
Pédagogie, Recherche
Validation None
Maximum Tree Depth 3
Minimum Cases in
10
Parent Node
Minimum Cases in
5
Child Node
Results Independent Variables
Age, EMA, Pédagogie, Recherche
Included
Number of Nodes 10
Number of Terminal
6
Nodes
Depth 3

Avec de correction de Bonferroni

26
27
Présentation de CART
Exemple : Crédit
On observe sur n = 323 personnes :

Réponse Y : Credit ranking (good/bad)

4 prédicteurs X :
- X1 = Classe d’age (young, middle, old)

- X2 = Has AMEX card (yes/no)

- X3 = Paid Weekly/Monthly (weekly pay/monthly salary)

- X4 = Social Class (management, professional, clerical,

skilled, unskilled). 28
Mesures de liaison entre X binaire et Y
Y nominale : le critère Gini
Mesure de l’impureté d’un segment : Indice de Gini
i (t )   p ( j | t ) p (k | t )
j ,k
j k
Entropie
  p( j | t ) 1  p( j | t ) 
j quadratique
 1    p( j | t ) 
2

où p(j|t) = fréquence de la modalité j de Y sur le segment t

1
Résultat : 0  i (t )  1 
J 29
Exemple

Impureté = Prob(Bad)Prob(Good) + Prob(Good)Prob(Bad)

 .5201*.4799  .4799*.5201  .49919198
 1  .52012  .47992
1
 1   .5
2

Segment très impur 30

Division d’un segment
Segment t
Effectif = nt
Impureté i(t)

X=1 X X1  a

Segment tgauche Segment tdroit

Effectif = ntgauche Effectif = ntdroit
Impureté i(tgauche) Impureté i(tdroit)

Diminution de l’impureté = mesure de liaison entre X et Y

ntg ntd
 Gini (t g , td )  i (t )  i (t g )  i (t d )
Critère nt nt
Gini ntg ntd  2
 2    p( j | t g )  p( j | td )  
 
nt  j  31
Exemple

(0) i(0)=.49919198

(1) (2)

i(1)=.23106222 i(2)=.26634552
Diminution de l’impureté = Critère de Gini
n1 n
i (0)  i (1)  2 i (2)
n n
 .4992  .5108  .23106  .4892  .26635
32
 .2508
Y nominale : le critère Twoing
Segment t
Effectif = nt

X=1 X X=0

Segment tgauche Segment tdroit

Effectif = ntgauche Effectif = ntdroit

2
ntg ntd  
Twoing (t g , td )  2   p( j | t g )  p( j | t d ) 
nt  j 
33
Y ordinale : le critère Ordered Twoing
Segment t
Effectif = nt

X=1 X X=0

Segment tgauche Segment tdroit

Effectif = ntgauche Effectif = ntdroit

ntg ntd
Max  p(Y  j | t g )  p(Y  j | td ) 
2
 Ordered Twoing (t g , td )  2
nt
j

34
Y numérique : le critère LSD
(Least Square Deviation)

Segment t
Effectif = nt

X=1 X X=0

Segment tgauche Segment tdroit

Effectif = ntgauche Effectif = ntdroit

ntg ntd 2
(t g , td )  2
 y (t g )  y (td ) 
nt

35
Construction de l’arbre maximum TMax

• On part de l’échantillon de base t0.

• Pour chaque prédicteur Xj, on cherche la dichotomie
des modalités de Xj conduisant à deux segments
descendants tg et td maximisant (tg,td).
• Si X est nominale, la dichotomie est quelconque.
• Si X est ordinale, la dichotomie est {[X  i],[X > i]}
• On itère la procédure sur chaque segment descendant.
• La procédure est stoppée en fonction de règles d’arrête
définies par l’utilisateur.
36
Exemple Crédit
Credit ranking (1=Good)

Règles d’arrêt : Node 0

Category % n
- Improvement minimum = 0.01 Good
Bad
47.99
52.01
155
168

- Effectif segment parent minimum = 25 Total (100.00) 323

Paid Weekly/Monthly
- Effectif segment descendant minimum = 1 Improvement=0.2508

Monthly salary Weekly pay

Node 1 Node 2
Category % n Category % n
Good 84.18 133 Good 13.33 22
Bad 15.82 25 Bad 86.67 143
Total (48.92) 158 Total (51.08) 165

Age Categorical Age Categorical

Improvement=0.0484 Improvement=0.0340

Young (< 25) Middle (25-35);Old ( > 35) Middle (25-35);Young (< 25) Old ( > 35)

Node 3 Node 4 Node 5 Node 6

Category % n Category % n Category % n Category % n
Good 51.02 25 Good 99.08 108 Good 9.49 15 Good 100.00 7
Bad 48.98 24 Bad 0.92 1 Bad 90.51 143 Bad 0.00 0
Total (15.17) 49 Total (33.75) 109 Total (48.92) 158 Total (2.17) 7

Social Class
Improvement=0.0142

Professional Clerical;Management

Node 7 Node 8
Category % n Category % n
Good 41.46 17 Good 100.00 8 37
Bad 58.54 24 Bad 0.00 0
Total (12.69) 41 Total (2.48) 8
Les règles d’arrêt
• Les prédicteurs sont constants sur le segment.
• Le segment est pur.
• Profondeur de l’arbre égale au maximum spécifié.
• Taille du segment < minimum spécifié (ici 20).
• Taille du sous-segment < minimum spécifié (ici 5).
• Diminution de l’impureté < minimum spécifié
(ici .0001).

38
Risque global
• Chaque segment terminal est affecté
à la modalité de Y la plus fréquente
dans le segment.

• Risque = % de mal classés

39
Tableau de classification et risque global

Misclassification Matrix

Actual Category
Good Bad Total
Predicted Category Good 123 1 124
Bad 32 167 199
Total 155 168 323

Resubstitution
Risk Estimate 0.102167 33 / 323
SE of Risk Estimate 0.016852

.102167  (1  .102167)
323 40
Tableau des gains

nt
nt - Gain = Nb de réponses cibles dans le segment t
n
- Gain (%) = % de réponses cibles de l’échantillon
total dans le segment t
- Resp (%) = % de réponses cibles dans le segment t

Proportion de réponses cibles dans le segment t

- Index (%) =
Proportion de réponses cibles dans l'échantillon total

41
Élagage (Pruning)
• On construit l’arbre maximum Tmax.
• On recherche le plus petit arbre T dont le risque
de mauvaise classification
n   max nk (t )
tT
k Nb de mal classés
C (T )  
n n

est peu supérieur à celui de l’arbre complet.

(T = ensemble des segments terminaux)

42
Mesure de coût-complexité C(T)
C (T )  C (T )   T

- T = Nombre de segments terminaux de l'arbre T

-  = Pénalité attribuée à chaque segments terminal

- T ( ) = Arbre construit dans la phase de construction
de Tmax minimisant C (T )
- T (0) = Tmax arbre de complexité maximum
- Plus  augmente, plus le nombre de segments
terminaux de T ( ) diminue. 43
L’algorithme d’élagage de CART
- Soit Tracine = Segment racine = Echantillon de base.
- L'algorithme de CART permet de construire
une suite d'arbres emboités Tk  T ( k ) :

Tmax  T1  T2  T3  ...  Tracine

correspondant à une suite croissante de

pénalités de complexité k :

0  1   2   3  ...
44
Choix de l’arbre à retenir
- Calcul des risques de mauvaise classification
de la suite de sous-arbres :
C (Tmax )  C (T1 )  C (T2 )  ...  C (Tracine )

- Calcul de l'écart-type de C (Tmax ) :

C (Tmax )  1  C (Tmax ) 
Ecart-type C (Tmax )  
n

- Choix de l'arbre T j ayant le plus petit nombre

de segments terminaux et vérifiant :
Par défaut
C (T j )  C (Tmax ) + *Ecart-type C (Tmax ) 
=1 45
Exemple : Qualité des vins de Bordeaux

Variables observées sur 34 années (1924 - 1957)

• TEMPERATURE : Somme des températures

moyennes journalières
• SOLEIL : Durée d’insolation
• CHALEUR : Nombre de jours de grande chaleur
• PLUIE : Hauteur des pluies
• QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

46
Les données
Température Soleil Chaleur Pluie Qualité
1 3064 1201 10 361 2
2 3000 1053 11 338 3
3 3155 1133 19 393 2
4 3085 970 4 467 3
5 3245 1258 36 294 1
6 3267 1386 35 225 1
7 3080 966 13 417 3
8 2974 1189 12 488 3
9 3038 1103 14 677 3
10 3318 1310 29 427 2
11 3317 1362 25 326 1
12 3182 1171 28 326 3
13 2998 1102 9 349 3
14 3221 1424 21 382 1
15 3019 1230 16 275 2
16 3022 1285 9 303 2
17 3094 1329 11 339 2
18 3009 1210 15 536 3
19 3227 1331 21 414 2
20 3308 1366 24 282 1
21 3212 1289 17 302 2
22 3361 1444 25 253 1
23 3061 1175 12 261 2
24 3478 1317 42 259 1
25 3126 1248 11 315 2
26 3458 1508 43 286 1
27 3252 1361 26 346 2
28 3052 1186 14 443 3
29 3270 1399 24 306 1
30 3198 1259 20 367 1
31 2904 1164 6 311 3
32 3247 1277 19 375 1
33 3083 1195 5 441 3
34 3043 1208 14 371 3 47
Arbre de taille
maximale T1

48
T2 T3

T4 T5

49
Q u e l a rb re fa u t-il c h o is ir ? C a lc u lo n s le s c o û ts d ’e rre u r d e c la s s e m e n t (o u p ro p o rtio n s d e m a l
c la s s é s ) a s s o c ié s à c e s d iffé re n ts a rb re s :

A rb re P é n a lité  C o û t
T 1 = T m ax 0 2 /3 4 = .0 5 8 8
T 2 .0 2 9 4 /3 4 = .1 1 7 6
T 3 .0 5 9 6 /3 4 = .1 7 6 4
T 4 .1 4 7 1 1 /3 4 = .3 2 3 5
T 5 = T r a c in e .3 2 4 2 2 /3 4 = .6 4 7 0

Ic i l’é c a rt-ty p e d u c o û t d e l’a rb re d e ta ille m a x im a le v a u t

.0 5 8 8  (1  .0 5 8 8 )
E T (C (T m a x ))   .0 4 0 3
3 4

L a rè g le d u « u n é c a rt-ty p e » c o n d u it d o n c à s é le c tio n n e r le p lu s p e tit a rb re T j te l q u e

C (T j)  C (T m a x )  E T (C (T m a x ) )  .0 5 8 8  0 .0 4 0 3  .0 9 9 1

D ’o ù la s é le c tio n d e l’a rb re T m ax. S i l’o n a p p liq u e la rè g le d u « d e u x é c a rts -ty p e s » , o n u tilis e

le s e u il .1 3 9 4 e t o n e s t a lo r s a m e n é à s é le c tio n n e r l’ a rb r e T 2 . P o u r tro is é c a rts - ty p e s , le s e u il
50
d e v ie n t .1 7 9 7 e t l’ a r b r e s é le c tio n n é d e v ie n t T 3 .
Présentation de SIPINA
Exemple : Titanic
Survivant Pourcentage
Classe Age Sexe de
Oui Non survivants
M 57 118 33
Adulte
F 140 4 97
Première
M 5 0 100
Enfant
F 1 0 100
M 14 154 8
Adulte
F 80 13 86
Deuxième
M 11 0 100
Enfant
F 13 0 100
M 75 387 16
Adulte
F 76 89 46
Troisième
M 13 35 27
Enfant
F 14 17 45
M 192 670 22
Equipage Adulte
F 20 3 87

51
Mesure de liaison entre X et Y nominale

Mesure de l’impureté (entropie, incertitude)

d’un segment t : Indice de Gini corrigée

 n j (t ) 
2 Indépendant
i (t )  1    p ( j | t )  1   
2
Dans CART :  de la taille
j j  n(t ) 
du segment

 n j (t )   
2 Diminue lorsque la
Dans SIPINA : i (t )  1     taille du segment
j  n(t )  J  
augmente

Le paramètre  est fixé automatiquement par SIPINA.

52
Le graphe latticiel de SIPINA
Survie au naufrage du Titanic

53
Mesure de liaison entre X et Y nominale

Mesure de l’incertitude
sur une partition K
n(tk )  n
 j k(t )    
2

i ( S )   1     
S = {t1,…, tK} de k 1 n 
 j  n(tk )  J   

l’échantillon de base t0

Mesure de l’incertitude
I
ni   n
 ij    
2
sur une partition induite par X i ( S X )   1     
SX = {t1=[X=1],…, tI=[X=I]} i 1 n  j  ni   J   
 
de l’échantillon de base t0

Mesure de la force
de la liaison entre X et Y : I (t0 , S X )  i (t0 )  i ( S X )
Gain sur l’incertitude 54
Description de l’algorithme SIPINA
Recherche de la partition S1
• La partition initiale S0 est formée de l’échantillon
de base.
• Le paramètre  est fixé de manière automatique.
• Recherche de la variable Xj conduisant à la
meilleure partition S1, soit maximisant le gain sur
l’incertitude
I ( S0 , S X j )  i ( S0 )  i ( S X j )
55
Description de l’algorithme SIPINA
Opérations de base pour le passage
de la partition Si à Si+1

• Éclatement : Un segment t de Si est divisé à l’aide

d’un prédicteur X en I segments th = t[X = h].
D’où : Si+1 = Si – {t} + {t1}+…+{tI}.
• Fusion : On fusionne les deux segments tq et tr de Si.
D’où : Si+1 = Si – {tq}{tr } + tqtr .

• Partition admissible : Si+1 est admissible si

Gain sur I ( Si , Si 1 )  i ( Si )  i ( Si 1 )  0
l’incertitude
56
Exemples des opérations de base sur Titanic
Éclatement :

Fusion :

57
Exemple sur Titanic
Fusion :

58
Description de l’algorithme SIPINA
Passage de la partition Si à Si+1
• Fusion : On fusionne les deux segments de Si conduisant à une partition S'i+1
maximisant le gain sur l’incertitude I(Si,S'i+1). Si gain > 0, on pose Si+1=
S'i+1 et on repasse une étape de fusion. Sinon, passage à la phase suivante.
• Fusion-éclatement : On construit toutes les partitions obtenues par fusion de
deux segments de Si. Pour chacune de ces partitions, on recherche le prédicteur
conduisant au meilleur éclatement des deux segments fusionnés. On retient la
partition à gain sur incertitude maximum. Si cette partition est admissible, elle
définit Si+1. et on retourne à l’étape Fusion. Sinon on passe à la phase suivante.
• Éclatement : Pour chaque segment de Si, on recherche la meilleure partition
admissible obtenue par éclatement à l’aide d’un prédicteur. On retient celle qui
conduit au meilleur gain sur l’incertitude. Si cette meilleure partition admissible
existe, elle définit Si+1 et on repart en phase 1. Sinon le processus s’arrête et Si
est optimale.

Vous aimerez peut-être aussi

Examen Sondage
Pas encore d'évaluation
Examen Sondage
11 pages
Serie 3
Pas encore d'évaluation
Serie 3
3 pages
Arbres de Decision Printable
Pas encore d'évaluation
Arbres de Decision Printable
47 pages
Rapport
Pas encore d'évaluation
Rapport
26 pages
Biostat 2
Pas encore d'évaluation
Biostat 2
2 pages
Cours10 pt2
Pas encore d'évaluation
Cours10 pt2
28 pages
Test d'indépendance Chi-carré
Pas encore d'évaluation
Test d'indépendance Chi-carré
2 pages
Les Methodes de Sondage
Pas encore d'évaluation
Les Methodes de Sondage
10 pages
Arbre de Décision
Pas encore d'évaluation
Arbre de Décision
25 pages
Examen Corrigé Analyse de Données
100% (2)
Examen Corrigé Analyse de Données
8 pages
DM Inscae Juillet 2024 Anado
Pas encore d'évaluation
DM Inscae Juillet 2024 Anado
8 pages
Analyse Quantitative Des Données de Recherche
Pas encore d'évaluation
Analyse Quantitative Des Données de Recherche
10 pages
Chap 3
100% (1)
Chap 3
35 pages
Tableau de Contingence Et Test Du Khi IGE3A
Pas encore d'évaluation
Tableau de Contingence Et Test Du Khi IGE3A
8 pages
Chap 1
Pas encore d'évaluation
Chap 1
27 pages
Arbre de décision pour évaluation étudiante
Pas encore d'évaluation
Arbre de décision pour évaluation étudiante
1 page
CART
100% (1)
CART
13 pages
CC Tes M1-2023-1
Pas encore d'évaluation
CC Tes M1-2023-1
3 pages
Analyse des Données Qualitatives
Pas encore d'évaluation
Analyse des Données Qualitatives
30 pages
Examen de System Decisionnel
Pas encore d'évaluation
Examen de System Decisionnel
5 pages
Concepts de base en biostatistique
Pas encore d'évaluation
Concepts de base en biostatistique
27 pages
Partie2 Statistique
Pas encore d'évaluation
Partie2 Statistique
60 pages
Définition de l'endogénéité en économétrie
Pas encore d'évaluation
Définition de l'endogénéité en économétrie
5 pages
Analyse Bivariée et Tests Statistiques
Pas encore d'évaluation
Analyse Bivariée et Tests Statistiques
29 pages
Introduction à la statistique descriptive
60% (5)
Introduction à la statistique descriptive
192 pages
Screenshot 2025-02-07 at 6.41.29 PM
Pas encore d'évaluation
Screenshot 2025-02-07 at 6.41.29 PM
19 pages
Etape 1
Pas encore d'évaluation
Etape 1
23 pages
Analyse des données d'examen 2017
Pas encore d'évaluation
Analyse des données d'examen 2017
3 pages
Introduction à la statistique
Pas encore d'évaluation
Introduction à la statistique
189 pages
TP7 Clustering-1
Pas encore d'évaluation
TP7 Clustering-1
6 pages
Synthèse Biostat 123
Pas encore d'évaluation
Synthèse Biostat 123
12 pages
Cours Biostatistique Descriptive - PCEM1 - LSP1
Pas encore d'évaluation
Cours Biostatistique Descriptive - PCEM1 - LSP1
51 pages
Stats - S4
Pas encore d'évaluation
Stats - S4
10 pages
Test d'indépendance et effectifs théoriques
Pas encore d'évaluation
Test d'indépendance et effectifs théoriques
14 pages
Imad 2019
Pas encore d'évaluation
Imad 2019
18 pages
Arbre de Décision : Concepts et Applications
Pas encore d'évaluation
Arbre de Décision : Concepts et Applications
21 pages
Introduction aux Tests Statistiques
Pas encore d'évaluation
Introduction aux Tests Statistiques
15 pages
Chapitre 1 - A
Pas encore d'évaluation
Chapitre 1 - A
57 pages
Seance5 Intro Arbres
Pas encore d'évaluation
Seance5 Intro Arbres
55 pages
Analyse des données et méthodes de collecte
Pas encore d'évaluation
Analyse des données et méthodes de collecte
4 pages
CH 3
Pas encore d'évaluation
CH 3
13 pages
DM 2016 Chapitre 3
Pas encore d'évaluation
DM 2016 Chapitre 3
21 pages
4 Modele Cox
Pas encore d'évaluation
4 Modele Cox
111 pages
Série 1 TD BIOSTAT COR
Pas encore d'évaluation
Série 1 TD BIOSTAT COR
3 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
55 pages
Chapitre 4
Pas encore d'évaluation
Chapitre 4
77 pages
Coefficients Statistiques Essentiels
Pas encore d'évaluation
Coefficients Statistiques Essentiels
7 pages
Statistique Descriptive-Compressed
Pas encore d'évaluation
Statistique Descriptive-Compressed
64 pages
Cours Mathématique Statistique2
Pas encore d'évaluation
Cours Mathématique Statistique2
37 pages
Série AFC
100% (1)
Série AFC
4 pages
Biométrie et Variabilité Génétique
Pas encore d'évaluation
Biométrie et Variabilité Génétique
8 pages
RC898
Pas encore d'évaluation
RC898
170 pages
Chap3 Arbres Sahbi
Pas encore d'évaluation
Chap3 Arbres Sahbi
46 pages
05 - Statistiques Descriptives
Pas encore d'évaluation
05 - Statistiques Descriptives
24 pages
Chapitre 5 - Les Arbres de D-Cision
Pas encore d'évaluation
Chapitre 5 - Les Arbres de D-Cision
33 pages
Cours de Biostatistique - Uemi
Pas encore d'évaluation
Cours de Biostatistique - Uemi
16 pages
Guerirlesmaladeschap1 3.02
100% (3)
Guerirlesmaladeschap1 3.02
101 pages
Cours VBA Excel
100% (2)
Cours VBA Excel
68 pages
Etude Industrie Pharmaceutique2014
Pas encore d'évaluation
Etude Industrie Pharmaceutique2014
43 pages
13-Les-7 COLONNES DE LA REDEMPTION PDF
100% (2)
13-Les-7 COLONNES DE LA REDEMPTION PDF
16 pages
Mécanismes de la photosynthèse
Pas encore d'évaluation
Mécanismes de la photosynthèse
19 pages
Performance Extra-Financière d'UBIPHARM
Pas encore d'évaluation
Performance Extra-Financière d'UBIPHARM
29 pages
Chimie Générale pour Étudiants en Médecine
Pas encore d'évaluation
Chimie Générale pour Étudiants en Médecine
29 pages
Stages en Pharmacie et Santé Publique
100% (1)
Stages en Pharmacie et Santé Publique
6 pages
Lecoute de Dieu Avec David Thery
50% (4)
Lecoute de Dieu Avec David Thery
1 page
Chaloupe de Gorée Sénégal
Pas encore d'évaluation
Chaloupe de Gorée Sénégal
1 page
Distribution pharmaceutique au Maroc
Pas encore d'évaluation
Distribution pharmaceutique au Maroc
4 pages
Mosaique-01 F PDF
100% (2)
Mosaique-01 F PDF
305 pages
10 Promesses Bibliques Sur La Guerison
Pas encore d'évaluation
10 Promesses Bibliques Sur La Guerison
2 pages
Annatut' UE6 Pharmacologie 2012 2013
100% (3)
Annatut' UE6 Pharmacologie 2012 2013
114 pages
Exercices sur Variables Aléatoires Discrètes
Pas encore d'évaluation
Exercices sur Variables Aléatoires Discrètes
4 pages
1ére EMD de Biophysique - To - 2011 - 2012
Pas encore d'évaluation
1ére EMD de Biophysique - To - 2011 - 2012
2 pages
Variables aléatoires discrètes : Concepts et Exercices
Pas encore d'évaluation
Variables aléatoires discrètes : Concepts et Exercices
6 pages
233 Corrige ED Diabete Sucre Cc1-3
Pas encore d'évaluation
233 Corrige ED Diabete Sucre Cc1-3
20 pages
TVA et Obligations du Commerçant en Pharmacie
Pas encore d'évaluation
TVA et Obligations du Commerçant en Pharmacie
17 pages
Comprendre la loi normale en statistiques
Pas encore d'évaluation
Comprendre la loi normale en statistiques
39 pages
Comprendre la loi normale en statistiques
Pas encore d'évaluation
Comprendre la loi normale en statistiques
39 pages
Epreuve S.V.T. Tle L2 Pikine 2021
Pas encore d'évaluation
Epreuve S.V.T. Tle L2 Pikine 2021
1 page
Ua Vi Seqce 1
Pas encore d'évaluation
Ua Vi Seqce 1
14 pages
Diabète Gestationnel
Pas encore d'évaluation
Diabète Gestationnel
9 pages
Adénome Thyréotrope Et Resistance Hypophysaire Aux Hormones Thyroidiennes
Pas encore d'évaluation
Adénome Thyréotrope Et Resistance Hypophysaire Aux Hormones Thyroidiennes
23 pages
Tunisie Correction Bac 2014
Pas encore d'évaluation
Tunisie Correction Bac 2014
4 pages
Exploration Et Pathologies Des Gonades Femmelles 2020
Pas encore d'évaluation
Exploration Et Pathologies Des Gonades Femmelles 2020
7 pages
Examens Final de Physiologie Humaine
Pas encore d'évaluation
Examens Final de Physiologie Humaine
3 pages
Résumé de La Fonction Reproductrice Masculine Converti
83% (6)
Résumé de La Fonction Reproductrice Masculine Converti
4 pages
Corrigé Série 7
Pas encore d'évaluation
Corrigé Série 7
4 pages
Incidentalome surrénalien : diagnostic et gestion
Pas encore d'évaluation
Incidentalome surrénalien : diagnostic et gestion
16 pages
TD Reproduction 1
100% (1)
TD Reproduction 1
4 pages
Endocrinologie: Diagnostic et Traitement
Pas encore d'évaluation
Endocrinologie: Diagnostic et Traitement
46 pages
Dev 1 S2 SVT 1BAC L
Pas encore d'évaluation
Dev 1 S2 SVT 1BAC L
2 pages
Cours de Pediatrie Endocrinologique
100% (1)
Cours de Pediatrie Endocrinologique
185 pages
Coma Hyperosmolaire PDF
Pas encore d'évaluation
Coma Hyperosmolaire PDF
1 page
Retard 20 Retard Staturo Pnderal DC Et Pec
Pas encore d'évaluation
Retard 20 Retard Staturo Pnderal DC Et Pec
67 pages
Physiologie Femelle
Pas encore d'évaluation
Physiologie Femelle
18 pages
Reproduction TD 2025
Pas encore d'évaluation
Reproduction TD 2025
4 pages
Effets de Cucurbita pepo et Atriplex halimus sur SOPK
Pas encore d'évaluation
Effets de Cucurbita pepo et Atriplex halimus sur SOPK
132 pages
Banque QCM
Pas encore d'évaluation
Banque QCM
11 pages
Hypothalamus et Hypophyse : Rôles et Hormones
Pas encore d'évaluation
Hypothalamus et Hypophyse : Rôles et Hormones
8 pages
TD N°2 Controle Hormonal de La Spermatogénèse
0% (1)
TD N°2 Controle Hormonal de La Spermatogénèse
3 pages
Crise aiguë thyrotoxique en réanimation
Pas encore d'évaluation
Crise aiguë thyrotoxique en réanimation
12 pages
La Thyroïde
Pas encore d'évaluation
La Thyroïde
31 pages
Protocole Test au Minirin pour Cushing
Pas encore d'évaluation
Protocole Test au Minirin pour Cushing
3 pages
Aménorrhée Secondaire - Internat QR Gynéco 04
Pas encore d'évaluation
Aménorrhée Secondaire - Internat QR Gynéco 04
5 pages
1) Hypoglycemie
Pas encore d'évaluation
1) Hypoglycemie
6 pages
Acromégalie : Signes, Diagnostic, Traitement
Pas encore d'évaluation
Acromégalie : Signes, Diagnostic, Traitement
8 pages
Évaluation D'endocrinologie Licence 3 Ide N°1
Pas encore d'évaluation
Évaluation D'endocrinologie Licence 3 Ide N°1
12 pages
11-1-2-Hypothyroidie Et Le Myxœdème
Pas encore d'évaluation
11-1-2-Hypothyroidie Et Le Myxœdème
3 pages

Segmentation

Transféré par

Segmentation

Transféré par

Méthodes de segmentation

• Construire un arbre de décision à l’aide des prédicteurs.

• CHAID : Chi-squared Automatic

Proximité politique * Vote constitution européenne

Khi-deux = 545.3, NS = .000

Tableau croisé Khi-deux et p-value

Élagage avec la règle de un écart-type

Pour chaque prédicteur Xj :

- Fusion des modalités i et i’ de Xj telles que les profils

- D’où des nouveaux prédicteurs Xj*.

- Étude des tableaux croisés Xj*Y :

3. Règle d’arrêt basées sur des critères

Pas de correction de Bonferroni

• Groupe 0 : Thyroïde non palpable, ou palpable mais dont les

• Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II

• X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni

• X2 = Sexe : 1 = Homme, 2 = Femme

• X3 = Jour : 0 = 0, 1 = 180, 2 = 360

• X4 = Iode : 1 = Absence, 2 = Présence

VILLAGE SEXE JOUR IODE G1 G2 G3 G4 Total

VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4

Niveau moyen de goitre

1.6 Femme 1.0 Femme

2.0 Niveau moyen de goitre 2.0

1.4 SEXE 1.4 SEXE

1.2 Homme 1.2 Homme

1.0 Femme 1.0 Femme

Avec de correction de Bonferroni

Réponse Y : Credit ranking (good/bad)

- X2 = Has AMEX card (yes/no)

- X3 = Paid Weekly/Monthly (weekly pay/monthly salary)

- X4 = Social Class (management, professional, clerical,

où p(j|t) = fréquence de la modalité j de Y sur le segment t

Impureté = Prob(Bad)*Prob(Good) + Prob(Good)*Prob(Bad)

Segment très impur 30

Segment tgauche Segment tdroit

Diminution de l’impureté = mesure de liaison entre X et Y

Segment tgauche Segment tdroit

Segment tgauche Segment tdroit

Segment tgauche Segment tdroit

• On part de l’échantillon de base t0.

Règles d’arrêt : Node 0

- Effectif segment parent minimum = 25 Total (100.00) 323

Monthly salary Weekly pay

Age Categorical Age Categorical

Node 3 Node 4 Node 5 Node 6

• Risque = % de mal classés

Proportion de réponses cibles dans le segment t

est peu supérieur à celui de l’arbre complet.

- T = Nombre de segments terminaux de l'arbre T

-  = Pénalité attribuée à chaque segments terminal

Tmax  T1  T2  T3  ...  Tracine

correspondant à une suite croissante de

- Calcul de l'écart-type de C (Tmax ) :

- Choix de l'arbre T j ayant le plus petit nombre

Variables observées sur 34 années (1924 - 1957)

• TEMPERATURE : Somme des températures

Ic i l’é c a rt-ty p e d u c o û t d e l’a rb re d e ta ille m a x im a le v a u t

L a rè g le d u « u n é c a rt-ty p e » c o n d u it d o n c à s é le c tio n n e r le p lu s p e tit a rb re T j te l q u e

D ’o ù la s é le c tio n d e l’a rb re T m ax. S i l’o n a p p liq u e la rè g le d u « d e u x é c a rts -ty p e s » , o n u tilis e

Mesure de l’impureté (entropie, incertitude)

Le paramètre  est fixé automatiquement par SIPINA.

• Éclatement : Un segment t de Si est divisé à l’aide

• Partition admissible : Si+1 est admissible si

Vous aimerez peut-être aussi

Impureté = Prob(Bad)Prob(Good) + Prob(Good)Prob(Bad)