Abdelouahid Lyhyaoui
[email protected]
-Data Mining- ENSAT 2020-2021
CHANGEMENT DANS L’ENVIRONEMENT
DES ENTREPRISES
Saturation des marchés
Nouvelles stratégies de relation entre clients et
entreprises
Changements socio-économiques
Apparition de nouveaux compétiteurs
Nécessité de réévaluer les méthodes traditionnelles
de négoce et la recherche d ’une réponse aux
changement dans l ’environnement des entreprises
-Data Mining- ENSAT 2020-2021
CIBLE SUR LE CLIENT
Quel est le profil du client?
(CONCESSION DE CRÉDIT)
Quel profil de client cibler lors d’une campagne
de marketing ? (MARKETING SEGMENTÉ)
Quels clients sont susceptibles de réagir à une
promotion déterminée ?
Quel est le profil des clients de longue durée ?
-Data Mining- ENSAT 2020-2021
CIBLE SUR LA CONCURRENCE
Prédiction de nouvelles stratégies du négoce
concurrentiel
Prédiction des mouvements tactiques de
compétition locale
TYPES DE PROBLÈMES
Clustering
Classification Séquençage
Estimation Prédiction
TOUS SONT DES TRAITEMENTS DE DONNEES:
DECISION ET/OU ESTIMATION
-Data Mining- ENSAT 2020-2021
OUI/NON (COMBIEN)
• Choix d’une action (ou d’une stratégie)
d’investissement
• Détection d’une opération frauduleuse
• Prédiction du changement de devises
• Prédiction de la consommation
• Estimation des bénéfices de l’opération
• Détermination du taux d’intérêt pour un prêt donné
-Data Mining- ENSAT 2020-2021
MOTIVATION INFORMATIQUE (I)
Le développement des moyens informatiques de
stockage (bases de données) et de calcul permet le
traitement et l’analyse d’ensembles de données très
volumineux.
Le perfectionnement des interfaces offre aux
utilisateurs, statisticiens ou autres, des possibilités de
mise en œuvre très simples des outils logiciels.
-Data Mining- ENSAT 2020-2021
MOTIVATION INFORMATIQUE (II)
• Le développement de nouvelles méthodes
algorithmiques (réseaux de neurones) et outils
graphiques, conduit au développement et à la
commercialisation de logiciels intégrant un sous-
ensemble de méthodes statistiques et algorithmiques
sous la terminologie de Data Mining.
-Data Mining- ENSAT 2020-2021
PRINCIPALES APPLICATIONS DU DM :
MARKETING
• Quel profil de client cibler lors d’une campagne de
marketing ?
• Quels clients sont susceptibles de réagir à une
promotion déterminée ?
• Quel est le profil des clients de longue durée ?
• Quels produits proposer en achats groupés ?
-Data Mining- ENSAT 2020-2021
PRINCIPALES APPLICATIONS DU DM :
FINANCES
•Quel est le profil des clients non rentables ?
•Quels facteur de risque associer à un demandeur de
crédit ?
•Détection d’un usage frauduleux d’une carte de crédit ?
•Quels produits financiers proposer à quels clients ?
•Quels clients risquent de clôturer prochainement leur
compte ?
•Comment détecter une déclaration de sinistre
frauduleuse ?
•Comment détecter une faillite prochaine ?
-Data Mining- ENSAT 2020-2021
PRINCIPALES APPLICATIONS DU DM :
TÉLÉCOMMUNICATIONS
•Quels clients sont susceptibles de nous quitter ?
•Quel est le profil des clients très rentables, et des
clients pas ou peu rentables ?
•Quels produits offrir à quels clients ?
•Comment détecter si une carte a été volée en
fonction de son utilisation ?
•Quel est le profil des clients avec abonnement ?
•Quel est le profil des clients non rentables ?
-Data Mining- ENSAT 2020-2021
PRINCIPALES APPLICATIONS DU DM :
INDUSTRIE (I)
Gestion de la chaîne d'approvisionnement
• Le SCM est l’intégration des processus
opérationnels clés depuis l’utilisateur final jusqu’aux
fournisseurs originaux de produits, de services et
d’informations qui apportent une valeur ajoutée aux
clients et aux autres parties prenantes.
-Data Mining- ENSAT 2020-2021
PRINCIPALES APPLICATIONS DU DM :
INDUSTRIE (II)
1. La gestion des flux de production
2. Le traitement des commandes
3. La gestion de la demande
4. La gestion de la relation fournisseur
5. Le développement de produits et la commercialisation
6. La gestion des retours
7. La gestion du service client
8. La gestion de la relation client
-Data Mining- ENSAT 2020-2021
PRINCIPALES APPLICATIONS DU DM :
INDUSTRIE (II)
Robotique
• Assemblage (reconnaissance de pièces)
• Contrôle de qualité
• Véhicule autonome etc.
-Data Mining- ENSAT 2020-2021
Comment sont les problèmes de décision?
Nationalité :X1
Age :X2
Revenus :X3
Oui-Non?
....
-Data Mining- ENSAT 2020-2021
VISION ANALYTIQUE
H1
D1
Observation z “Decideur”
D0
H0
Données Décision
-Data Mining- ENSAT 2020-2021
¿Comment sont les problèmes d’estimation?
Prédiction de la bourse:
? ?
Hier Aujourd'hui Demain
-Data Mining- ENSAT 2020-2021
VISION ANALYTIQUE
x z Estimateur x
Observation
Données Estimation
Valeur à estimer
-Data Mining- ENSAT 2020-2021
Machine de décision
En général
oi
zi
F(zi) (i:indique les échantillons)
Et on force
1, si H1
oi = ci = Entraînement supervisé
0, si H 0 (ou − 1)
En minimisant un certain coût C(o,c) qui mesure ce qui
rapproche o de c, en modifiant les paramètres de la machine w.
-Data Mining- ENSAT 2020-2021
EXEMPLE: Classification entre deux types de poissons
les Bars et les Saumons
• Prétraitement:
– Restauration de l’image prise par la
caméra
– Segmentation
• Extraction de caractéristiques:
– Pour réduire la quantité de données
(1024 x 1024 x 8 bits)
– Propriétés de l’objet qui serviront à la
classification
• Classification:
– Algorithme qui va évaluer les évidences qui lui sont
présentées et prendra une décision finale
-Data Mining- ENSAT 2020-2021
• Modèle (hypothèse): les bars sont généralement plus longs
que les saumons.
• Caractéristique: longueur
• Choix de l* :Ensemble d’entraînement, seuil l* à partir de
l’histogramme de la longueur des poissons
• l* plutôt mauvais car chevauchement trop important
-Data Mining- ENSAT 2020-2021
• Modèle (hypothèse): les bars sont généralement plus clairs
que les saumons.
• Caractéristique: luminosité
• Ensemble d’entraînement:
seuil x* à partir de
l’histogramme de La
luminescence des poissons
• x* plus satisfaisant qui minimise l’erreur (coût)
• Si les consommateurs acceptent sans trop de problèmes de
retrouver dans une boîte de bar un peu de saumon l’inverse
n’est pas vrai!
Alors…
-Data Mining- ENSAT 2020-2021
• Peut-on améliorer les
résultats avec plus
d’une
caractéristique?
• Le seuil devient une
courbe!
• Ex.: La droite qui
minimise le coût (erreur)
• Si on ajoute d’autres caractéristiques est-ce qu’on peut
encore améliorer?
• À l’infini? (malédiction de la dimensionnalité)
-Data Mining- ENSAT 2020-2021
• Pourquoi ne pas
adopter un modèle
(courbe) plus
complexe?
• Erreur = 0 sur
l’ensemble
d’entraînement
• Quelle sera l’erreur pour de nouveaux tests (poissons)?
• Généralisation
-Data Mining- ENSAT 2020-2021
• Le modèle
préférable
est peut-être un
compromis entre
les
deux précédents?
• Même s’il n’est pas le meilleur pour l’ensemble
d’entraînement?
• Comment prédire lequel se comportera le mieux en
situation réelle?
-Data Mining- ENSAT 2020-2021
• La réponse à ces questions nous sera fourni par la RF
statistique qui est basée sur la solide théorie des statistiques.
• Les réseaux de neurones sont intimement liés à la RF
statistique et peuvent être considérés comme descendants.
• La RF syntaxique est différente et basée sur des règles (ou
une grammaire) claires donc pas de floue ou de variations
aléatoires.
-Data Mining- ENSAT 2020-2021
Les différents modules d’un système de RF (1)
• Le transducteur permet d’acquérir
les données brutes.
– Camera, microphone,
capteur
– Ses caractéristique et
limitations: largeur de
bande, S/B, distorsion,
résolution, sensibilité, latence
(temps de réponse)…vont
influencer la difficulté de la RF
• La segmentation permet d’isoler les
objets à reconnaître
– par ex. les poissons présents dans
une image et ce même s’ils se
touchent ou se recouvrent
partiellement.
-Data Mining- ENSAT 2020-2021
Les différents modules d’un système de RF (2)
• La phase d’extraction des
caractéristiques consiste à calculer un
ensemble de mesures permettant de
représenter chaque classe de
façon aussi unique que possible
– Par ex. longueurs, largeurs,
luminosité,
couleur, texture, paramètre
morphologiques (angle des
nageoires,
distance entre les yeux)
– L’invariance des mesures en fonction
de la translation, de la rotation et du
changement d’échelle est souvent
souhaitable puisque ces
transformations
-Data Mining- ENSAT 2020-2021
• La classification permet d’associer une
classe à chaque objet traité
– Saumons vs. Bars
– Ajustement lorsque certaines
caractéristiques ne sont pas disponibles
– Ajustement en fonction du contexte
* Un objet sur une route
– automobile
* Un objet sur un lac
– bateau
• Enfin le post-traitement
– Minimiser le taux d’erreur
– Minimiser le risque (coût, préférence pour le saumon )
– Utilisation de plusieurs classificateurs (super-classificateur)
-Data Mining- ENSAT 2020-2021
Les étapes à suivre pour la construction d’un système de RF (1)
• Acquérir les données
– Souvent une partie importante de la
réalisation du système
– Combien?
– Imagerie médicale (éthique)
Choix des caractéristiques
– Connaissances a priori (luminosité
ou
longueur des poissons)
– Simples à extraire (segmentation)
– Invariantes
– Robustes au bruit
– Caractérisent bien chacune des classes (variance intra-classe
faible)
tout en les séparant bien (variance inter-classe élevée)
-Data Mining- ENSAT 2020-2021
Les étapes à suivre pour la construction d’un système de RF (2)
• Choix de l’algorithme de classification
– Simplicité, performance
• Entraînement du classificateur
– Apprentissage par l’exemple a
fait
ses preuves depuis 30 ans
– Non nécessaire lorsque non-
supervisé
• Évaluation des performances
– Une, deux ou plusieurs caractéristiques?
– Généralisation adéquate ou « overfitting »
-Data Mining- ENSAT 2020-2021
EXEMPLE
Entreprise : banque
Activité : prêts hypothécaires
Problème : accepter ou refuser une demande de crédit ?
Solution actuelle : évaluation de la solvabilité du client sur base de
critères définis par des gestionnaires expérimentés
-Data Mining- ENSAT 2020-2021
SOLUTION : DATA MINING
Analyser les données historiques : solvabilité observée
lors des anciens crédits
crédits modèle demandes
anciens de crédit
pour prévoir la solvabilité des demandeurs de crédit
-Data Mining- ENSAT 2020-2021
DONNÉES HISTORIQUES
montant_c tx_crédit profession état_civil revenus solvabilité
1000000 9.5% enseignant M 980000 O
2000000 7.4% employé M 1080000 N
2500000 8.1% ouvrier C 1200000 O
2200000 5.3% cadre M 1600000 O
3000000 8.1% ouvrier M 1500000 N
1900000 6.1% prof.libér. D 2100000 O
4200000 6.9% cadre M 1800000 O
-Data Mining- ENSAT 2020-2021
APPLICATION DU MODÈLE
AUX NOUVELLES DONNÉES
montant_c tx_crédit profession état_civil revenus solvabilité
2100000 7.2% employé C 1200000
1900000 7.4% employé M 1170000
3300000 6.9% prof.lib. C 1900000
1700000 7.00% cadre M 2050000
3100000 7.3% ouvrier M 1200000
2400000 6.9% fonction. M 1100000
4000000 7.1% cadre M 1900000
-Data Mining- ENSAT 2020-2021
DATA MINING (FOUILLE DE DONNÉES)
Définition
Le Data Mining combine les techniques
d’intelligence artificielle, d’analyse statistique,
de base de données et celles de la visualisation
graphique en vue d’obtenir de l’information
qui n’est pas explicitement représentée dans
les données et susceptible d’être plus
profitable que les données de départ.
-Data Mining- ENSAT 2020-2021
QU’ ENGLOBE LE CONCEPT DE DATA MINING?
Applications:
•Segmentation du marché
•Rétention de clients •Détection de fraude
Opérations
•Classification et prédiction
•Clustering •Analyse d’associations
Techniques et algorithmes
•Réseaux de neurones artificielles
•Arbre de décision •Analyse clustering
-Data Mining- ENSAT 2020-2021
ETAPES DE DATA MINING
Détermination de l ’objectif
Préparation des données
•Sélection des données
• Pré-traitement des données
• Transformation des données
Application des modèles prédictifs
Analyse des résultats et assimilation des
connaissances
-Data Mining- ENSAT 2020-2021
DIAGRAMME DE FLUX GÉNÉRAL
Données Sélection Nettoyage Emmagasinement
BASE
Information Traitement Codage Pré-traitement
Interprétation Application Evaluation
Réinterprétation
CONAISSANCES
-Data Mining- ENSAT 2020-2021
L’organisation du Flux d’informations et les acteurs
-Data Mining- ENSAT 2020-2021
TÉCHNIQUES ET ALGORITHMES DU
DATA MINING
(Modèles Prédictifs)
-Data Mining- ENSAT 2020-2021
ARBRES DE DECISION
On part de l’ensemble des échantillons et on les divise
pour le test
noeud
r1
1 (test 1)
r2
terminal noeud (test 2)
1 r1 2
r2
(classe 1)
terminal terminal
2 3
(classe 2) (classe 1)
-Data Mining- ENSAT 2020-2021
ARBRES DE DECISION (EXEMPLE)
Versements mens.
<1230 >=1230
solde moy. j. bon : 79%
mauvais : 21%
>420 <160
160-420
bon : 94% bon :58% nbre chèques sans prov.
mauvais : 6% mauvais : 42% >1
0-1
bon : 55% bon :21%
mauvais : 45% mauvais : 79%
-Data Mining- ENSAT 2020-2021
ARBRES DE DECISION
•Sont efficaces en temps d’exécution
•Offre une méthode intuitive pour l’analyse des résultats
•Mais tendent à se fragmenter
•Mauvaise généralisation ( surtout avec des variables
continues)
•Difficultés concernant les versions adaptatives
-Data Mining- ENSAT 2020-2021
REGLES
Se construisent (analogiquement) des règles type
si X∧(Y∨Z) ═► alors C
Problèmes
•Elles sont de construction difficile
•Mauvaise généralisation
•Difficultés concernant les versions
adaptatives
-Data Mining- ENSAT 2020-2021
RÉSEAUX DE NEURONES
Une des possibles systèmes de décision et d’estimation
Exemple MLP : Perceptron multi-couches
Sont : th
•Puissants +
•Versatiles th th
•Distribués robustes + +
Mais sont :
•d’entraînement difficile et lent
•Et difficiles à analyser z
-Data Mining- ENSAT 2020-2021
LES RÉSEAUX DE NEURONES
•Ne requièrent pas d’hypothèses « a priori »
•Extraient l’information présente dans les données
•Rapprochent de façon efficace les optima
•Peuvent aisément s’actualiser et s’améliorer
•Ne se saturent pas avec des données massives
-Data Mining- ENSAT 2020-2021
LES RÉSEAUX DE NEURONES
Mais nécessitent un modèle conceptuel professionnel
• SONT DIFICILES D ’INTERPRETER
En tout cas :
•Vaut-il mieux vendre ou comprendre totalement les
ventes ?
•Vaut-il mieux retenir ou comprendre totalement les
abonnés ?
-Data Mining- ENSAT 2020-2021
APLICATIONES DU DATA
MINING
-Data Mining- ENSAT 2020-2021
SEGMENTATION DE CLIENTS
L’évolution actuelle du marché exige le passage du
marketing de masses à celui dirigé aux groupes de
clients.
La segmentation du marché consiste en une division
du marché en groupes de clients intéressés par les
mêmes produits
Divers critères sont possibles pour réaliser la
segmentation :
• Géographique
• Démographique
-Data Mining- ENSAT 2020-2021
Exemple
L’entreprise “Safeway” est une des grandes chaînes
de ventes de produits dans le UK.
Facture 7 billonnes de £ chaque année
Possède 70.000 employés
Opère a travers 500 magasins
Son rang de produits est de l’ordre de 250.
Elle augmente continuellement le nombre de magasins.
-Data Mining- ENSAT 2020-2021
Un des domaines d’intérêt dans l’entreprise est la
segmentation des clients. L’information reçue des
différents groupes de clients est utilisée pour
diriger les promotions selon les nécessités de
chaque groupe.
Intérêt particulier pour les jeunes familles.
L’entreprise envois chaque année12 millions de
courriers.
Le département TI a construit une base de donnée
qui reçoit 8 millions de transactions par semaine.
-Data Mining- ENSAT 2020-2021
Bénéfices
La structure du département de Marketing se base
sur les résultats de data mining.
Le data mining permet à l’entreprise de mieux
identifier les clients.
Le data mining utilise l’information relative aux
compagnes de marketing antérieures pour une
optimisation dans la gestion des compagnes.
-Data Mining- ENSAT 2020-2021
“CREDIT SCORING”
Base de données des clients d’une entité financière
268 Clients non solvables
340 Clients solvables
608 registres de clients
les attributs pour la classification
- solde actuel - les dernières fiches de paie
- ensemble des crédits - revenu du prêt
- délai du prêt - l’état civil
- l’âge
-Data Mining- ENSAT 2020-2021
RÉSULTATS
NON SOLV. SOLV.
AUTRE 80,3% 89,2%
MLP 88,5% 96,9%
-Data Mining- ENSAT 2020-2021
“CROSS-SELLING” (Ventes Croisées)
vendre à son propre client s’avère 5 à 10 fois moins
coûteux que le faire à un nouveau client
Diriger la vente de nouveaux produits ou services à
ses propres clients
En se basant sur les services acquis par le client :
- Comment peut-on identifier lequel des autres services
pouvant intéresser le client ?
- Parmi ces clients, lesquels sont les meilleurs candidats
pour acheter un produit donné ?
-Data Mining- ENSAT 2020-2021
Exemple « Mellon bank Corporation » EU
Cette banque se pose le problème d’assurer une
vente croisée efficace de ses services à ses propres
clients
-Data Mining- ENSAT 2020-2021
Etapes à suivre
Préparation des données
Multitude de sources de données (historiques
bancaires, données démographiques, donnée de la
propriété etc.
Manque (trous) d’information dans les données
Nécessité de restructurer certaines des données
Sensibilité de certaines variables sélectionnées
Mining:
Utilisation de modèles prédictifs (réseaux RBF)
-Data Mining- ENSAT 2020-2021
(40000 cas)
Reste de clients
(250000 cas)
Clients ayant demandé un
prêt hypothécaire
-Data Mining- ENSAT 2020-2021
avec Data mining
Sans Data mining
Nombre d ’annonces envoyées par courrier
-Data Mining- ENSAT 2020-2021
CONCLUSIONS
• Il y a des outils suffisamment puissants
pour obtenir une information fiable et de
valeur
• Il faut vouloir (et savoir) l’utiliser.
-Data Mining- ENSAT 2020-2021