CAS FLORANCE
Nota : Ce cas est une adaptation du cas fourni par notre collègue Pierre Desmet Professeur de
Marketing à ESSEC et à l’université paris Dauphine.
La problématique
L’objectif est de vendre un livre « l’histoire artistique de Florence » à partir des informations
détenues dans une base de données d’adhérents à un club de livres. La démarche consiste à
tirer au hasard un échantillon d’adresses en fonction des variables les plus représentatives,
d’envoyer une offre à cet échantillon puis d’analyser les caractéristiques de ceux ayant
commandé le livre pour extraire de la base de données les autres adresses en fonction d’un
objectif de maximisation de la marge nette.
Lors d’un envoi de message le coût unitaire est constant ($1), alors que le gain dépend de la
fréquence de la réponse et de la marge unitaire ($6). Le résultat final dépend donc de la
capacité à éliminer les adresses ayant un faible taux de réponse. Le scoring a pour objectif de
donner à chaque adresse une note d’autant plus élevée que la probabilité de l’activité étudiée
(achat, impayé, annulation,…) est forte.
L’analyse n’est cependant pas effectuée au niveau d’une adresse mais d’un groupe d’adresses
définis par le croisement de plusieurs variables : ainsi pour 3 variables à 2 modalités chacune,
il y aura 8 segments terminaux.
Les méthodes
Les méthodes visent à rechercher les variables, et à l’intérieur les modalités, les plus
fortement corrélées au comportement à prévoir. La difficulté principale provient de l’arbitrage
entre l’intérêt du découpage étudié (c’est-à-dire la différence de réponse entre les groupes) et
L’importance décroissante des effectifs qui rend les conclusions, quant au caractère
significatif du découpage, de plus en plus difficile à affirmer.
L’intérêt global du scoring est évalué avec un graphique de pertinence (gain chart) qui
présente les adresses triées par ordre d’intérêt décroissant et, souvent, regroupées par déciles
(tranches de 10% des effectifs).
L’échantillon utilisé est divisé en deux parties. L’analyse est faite sur l’échantillon
d’apprentissage , mais la validité prédictive de la méthode est étudiée sur un autre
échantillon qui n’a pas été utilisé pour l’estimation, l’échantillon de validation.
1. Approche par la RFM
Principe : Une adresse est d’autant meilleure qu’elle est récente (Récence), que le compte
client a déjà effectué plusieurs commandes (Fréquence) ou que les valeurs des commandes
sont importantes (Montant). Ce qui donne un découpage classique permettant d’hiérarchiser
les segments.
La discrétisation des variables se fait en fonction d’une cohérence (notamment calendaire),
des effectifs minimaux de chaque modalité et de la pertinence (lien avec la variable étudiée).
Elle est étudiée grâce à (1) des graphiques représentant les taux de réponse moyens et (2) des
test du Chi² permettant de confirmer l’intérêt du découpage.
Application :
- calculer le résultat économique de l’opération sur l’échantillon de test
- créer des variables discrètes :
Récence : 0 à 2 mois, 3 à 6 mois, 7 à 12mois, 13 mois et plus ;
Fréquence : achat d’un ouvrage, 2, 3 et plus ;
Montant : 0, 1 à 25, >25 à 50, >50 à 100, >100 à 200, > à 200
- créer d’autres variables RFM en découpant chaque variable en 4 groupes d’effectifs
proches. Quelles sont les difficultés ?
- choisir l’un des deux découpages et combiner les variables, chaque segment étant la
combinaison spécifique des 3 variables (exemple R1, F1, F1). Faire un tableau de
synthèse avec pour chaque segment, les effectifs, les achats et les taux de réponse.
3. Approches en arborescence (Tree analysis)
Principe : le découpage variable par variable ne permet pas de prendre en compte les
interactions entre les variables. Au contraire dans une approche arborescente, chaque branche
a sa propre combinaison de variables. Cependant il n’est pas possible de prendre en compte
une variable si une variable qui lui est très corrélée est déjà prise en compte à un niveau
supérieur de l’arborescence. Les méthodes d’analyses sont basées sur une sélection des
variables en fonction de leur pouvoir explicatif, c’est-à-dire de l’écart des réponses (taux de
réponse) entre les groupes constitués, principalement sur un test du Chi². Les méthodes les
plus connues sont CHI-AID (chi² automatic interaction detector) et plus récemment CART
qui ré-analyse la pertinence des branches de l’arbre.
Application :
- Faire un découpage avec les variables suivantes achat de moins de $200 (S2) et de
$200 et plus (S1).
Pour S1, utiliser la variable « achat d’un livre d’art sur l’Italie » oui (S5), non (S6)
Pour S2, utiliser la récence : moins de 6 mois (S3), plus de 6 mois (S4)
- Pour S4, utiliser la variable « achat d’un livre d’art » Oui (S7), non (S8)
- Constituer l’arbre avec pour chaque segment, les effectifs, les achats, puis le taux
d’achat et le coût de recrutement sur l’échantillon de travail.
- Déterminer quels sont les segments à retenir en fonction d’un objectif de point mort
sur chaque segment.
- Pour chaque segment, calculer l’intervalle de confiance bilatéral à 5%.
- Recommencer la sélection en retenant les segments pour lesquels le point mort est
atteint pour la valeur inférieure de l’intervalle de confiance.
- Comparer les résultats de ces deux choix.
.
5. Méthode de régression logistique
Principe : c’est une méthode un peu moins connue qui est bien adaptée à la prédiction d’une
variable binaire car la valeur prévue est comprise en 0 et 1. La méthode utilisée est le
maximum de vraisemblance.
Interprétation : La qualité globale de l’ajustement ne peut se faire que par rapport à un
modèle de base (le modèle Nul ne comportant qu’une constante). Un test du Chi² permet de
juger si la variation de la vraisemblance est significativement différente de zéro.
Application :
- Appliquer une régression logistique sur les variables indépendantes
- Calculer le score pour l’échantillon de validation ; commenter.
- Agréger les résultats par décile et calculer la fréquence moyenne de réponse pour
chaque décile ;
- Proposer un nouveau critère de sélection des cibles en changeant le point de césure du
classement.
Annexe
Le fichier Flatfile (623 K) contient des informations pour chaque adhérent d’un club de livres
(Book Binder Book club) ayant fait l’objet d’une campagne de test pour la vente du livre
“Histroire artistique de Florence” qui a généré 4522 commandes pour 50.000 envois (taux de
-center.com rendement 9.04%).
Table 1 : Fichier à utiliser
=========================================================================
====================
Start Finish Width Name Type Description
=========================================================================
====================
1 5 5 ACCTNUM * Customer account number
6 6 1 GENDER "M"= male "F"= female
7 9 3 MONEY MONETARY-Total money spent
10 11 2 LAST PURCHASE RECENCY-Months since last purchase
12 13 2 NUM PURCHASE FREQUENCY-Total number of purchases
14 15 2 FIRST PURCHASE Months since first purchase
16 16 1 PURCHASE 1 Nb purch. categ 1: Childrens Books
17 17 1 PURCHASE 2 Nb purch. categ 2: Youth Books
18 18 1 PURCHASE 3 Nb purch. categ 3: Cook Books
19 19 1 PURCHASE 4 Nb purch. categ 4: Do-It-Yourself Books
20 20 1 PURCHASE 5 Nb purch. categ 5: Reference Books (Diction., atlas)
21 21 1 PURCHASE 6 Nb purch. categ 6: Art Books
22 22 1 PURCHASE 7 Nb purch. categ 7: Geography Books
23 23 1 COOK FLAG = 1 if bought "Secrets of Italian Cooking"
24 24 1 ATLAS FLAG = 1 if bought "Historical Atlas of Italy"
25 25 1 ART FLAG = 1 if bought "Italian Art"
26 26 1 BUYER FLAG = 1 if bought "The Art History of Florence"
=========================================================================
====================