Classification Clients en Microfinance
Classification Clients en Microfinance
N°: 02 M2R_SCA/ESPA/2015
Promotion :2014
UNIVERSITE D'ANTANANARIVO
ECOLE SUPERIEURE POLYTECHNIQUE
Domaine : Sciences de l'Ingénieur
Mention : Electronique
Parcours : Sciences Cognitives
Mémoire de Master à visée de recherche en Sciences Cognitives
N°: 02 M2R_SCA/ESPA/2015
Présenté par : Monsieur RAKOTOMANANA René
Le : 23 Fevrier 2016
Président du Jury :
– Ma famille, Mes amis, tous ceux qui, de près ou de loin, ont contribué à la
réalisation de ce travail et m’ont soutenu moralement durant mes études à l’E.S.P.A.
Liste des abréviations
2D Deux Dimensions
DM Data Mining
IA Intelligence Artificielle
Les sciences cognitives ont pour objet pour les grandes fonctions cognitives de
l'homme biologique, culturel et social: la perception, la mémoire, le langage, le
raisonnement, l'émotion, au travers des études interdisciplinaires: psychologie,
linguistique, philosophie, neuroscience, intelligence artificielle...
La cognition à son tour est un ensemble des activités intellectuelles et des processus
qui se rapportent à la connaissance et à la (aux) fonction(s) qui l'a (ont) réalisée, sous
forme de la cognition naturelle ou sous forme de la cognition artificielle.
L’informatique à son tour ne cesse de s’évoluer et petit à petit puis avec un grand
essor avec le temps dont il existe un accroissement non négligeable.
Les informations sont à traiter de manière automatique de nos jours en utilisant les
outils informatiques et prennent une place très importante dans le domaine de la
science.
Depuis d’une dizaine d’années les données manipulées par les entreprises et les
sociétés sont de temps en temps très volumineuses, à savoir la manipulation des
Page 1
bases de données, la gestion du système d’information, surtout l’accroissement des
informations associées aux clients.
En général le but est de trouver un moyen pour garder les clients et les rendre
fidèles sur les offres proposés. Dans ce cas, ces informations doivent être explorées,
fouillées pour maîtriser la connaissance sur les clients, trouver des moyens ou des
schémas comportementaux afin d’en déduire la façon de cadrer et anticiper leurs
attentes. Le Data Mining répond aux besoins de l’entreprise, il explore les données et
en ressort des relations entre le client et ses comportements, évalue les résultats à
une action future.
Le Data Mining possède plusieurs méthodes afin d’en tirer les connaissances parmi
elles le réseau de neurones artificiels et en particulier le Perceptron Multicouches
et les cartes de Kohonen.
Dans notre cas nous avons utilisé les informations concernant les clients des
établissements de Micro Finance afin de les classifier en fonction des certaines
variables d’informations en posant la question suivante est-il possible de classifier
les clients par rapport à des offres proposés ? Pour répondre à ce genre de question le
présent ouvrage se divise suivant l’organisation suivante : la situation générale en
Data Mining, ensuite le réseau de neurones artificiels et suivi de la méthodologie et
Page 2
nous allons terminer par Application de ces deux théories pour obtenir des résultats
avec des discussions associées.
A la fin de notre ouvrage nous pouvons apporter des nouvelles perspectives d’avenir
sur la mise en place et l’utilisation de Data Mining dans une institution de Micro
Finance qui a besoin de mettre en place une nouvelle stratégie sur la concurrence
Page 3
. Chapitre 1 : Le Data Mining
I. Introduction
Comme nous avons énoncé dans la partie introduction générale, l’utilisation de Data
Mining avec les techniques de classification, le présent chapitre va nous apporter
quelques notions générales et bases à propos de ces deux théories, leurs utilisations,
les avantages ainsi que les inconvénients.
A. Definition
Data Mining signifie l’extraction de connaissance à travers l’analyse d’une grande
quantité de données pour utiliser ces connaissances dans le processus de décision. Il
se compose en deux catégories : supervisé et non supervisé.
Prétraitement
Page 4
Estimer le modèle
Interpréter le modèle
Dans la plus part des cas, il est indispensable de comprendre la signification des
données et le domaine à explorer. Sans cette compréhension, aucun algorithme ne va
donner un résultat fiable. En effet, Avec la compréhension du problème, on peut
préparer les données nécessaires à l’exploration et interpréter correctement les
résultats obtenus.
D’après la définition du problème et des objectifs du Data Mining, on peut avoir une
idée sur les données qui doivent être utilisées. Ces données n’ont pas toujours le
même format et la même structure. On peut avoir des textes, des bases de données,
des pages web,etc…Parfois, on est amené à prendre une copie d’un système
d’information en cours d’exécution, puis ramasser les données de sources
éventuellement hétérogènes.
La Figure 1 [3] suivante présente les différentes sources de données. Leurs natures
sont en générales différentes même incompatible dans la plus part des cas.
Page 5
3) Prétraitement
Les données peuvent contenir plusieurs types d’anomalies : des données peuvent être
omises à cause des erreurs de frappe ou à causes des erreurs dues au système lui-
même, dans ce cas il faut remplacer ces données ou éliminer complètement leurs
enregistrements. Des données peuvent être incohérentes, qui sortent des intervalles
permis, on doit les écarter où les normaliser. Parfois on est obligé à faire des
transformations sur les données pour unifier leur poids. Le prétraitement comporte
aussi la réduction des données qui permet de réduire le nombre d’attributs pour
accélérer les calculs et représenter les données sous un format optimal pour
l’exploration.
4) Estimation du modèle :
Dans cette étape, on doit choisir la bonne technique pour extraire les connaissances
(exploration) des données. Des techniques telles que les réseaux de neurones, les
arbres de décision, les réseaux bayésiens, le clustering, ... sont utilisées.
Comme l’objectif du Data Mining est d’aider à la prise de décision en fournissant des
modèles compréhensibles aux utilisateurs. En effet, les utilisateurs ne demandent pas
des pages et des pages de chiffres, mais des interprétations des modèles obtenus. Les
expériences montrent que les modèles simples sont plus compréhensibles mais moins
précis, alors que ceux complexes sont plus précis mais difficiles à interpréter.
Le Data Mining est une étape dans le processus d’extraction des connaissances, qui
consiste à appliquer des algorithmes d’analyse des données.
Page 6
Figure 2 Présentation démarche en Data Mining
A partir des sources de données, on extraite les données sous formes de collecte,
nettoyage des bruits, intégration, ensuite on le stocke dans l’entrepôt de données
suivi de la préparation afin d’obtenir les données d’apprentissage et on obtient le
Data Mining pour le traitement. Le résultat attendu est les modèles de connaissances
et le traitement suivant est la vérification ainsi que l’Evaluation du résultat obtenu.
Page 7
Figure 3 Processus de découverte de connaissance
A. Techniques supervisées
Dans la modélisation supervisée, ou prédictive, l'objectif est de prédire un événement
ou d'estimer les valeurs d'un attribut numérique continue. Dans ces modèles, il existe
des champs où les attributs d'entrée et une zone de sortie ou de la cible. Les champs
d'entrée sont également appelés prédicteurs, car ils sont utilisés par le modèle pour
identifier une fonction de prédiction de champ de sortie. Les modèles prédictifs sont
subdivisés en modèles de classification et d'estimation :
Page 8
2) Les modèles d’estimation
Ces modèles sont similaires à des modèles de classification, mais avec une différence
majeure. Ils sont utilisés pour prédire la valeur d’un champ continu en fonction des
valeurs observées des attributs d'entrée.
a. Arbre de décision
Les arbres de décision fonctionnent en séparant de façon récursive la population
initiale. Pour chaque groupe, ils sélectionnent automatiquement l'indicateur le plus
significatif, le prédicteur qui donne la meilleure séparation par rapport au champ
cible.
À travers des cloisons successives, leur objectif est de produire des sous-segments
purs, avec un comportement homogène en termes de production. Ils sont peut-être la
technique la plus populaire de classification. Une partie de leur popularité, c'est parce
qu'ils produisent des résultats transparents qui sont facilement interprétables, offrant
un aperçu de l'événement à l’étude. Les résultats obtenus peuvent avoir deux formats
équivalents. Dans un format de règle, les résultats sont représentés dans un langage
simple que les règles ordinaires : SI (VALEURS PREDICTIVES) ALORS (RESULTAT CIBLE
ET SCORE DE CONFIANCE). Dans une forme d’arborescence, les règles sont
représentés graphiquement sous forme d'arbre dans laquelle la population initiale
(nœud racine) est successivement divisé en des nœuds terminaux ou feuilles de sous-
segments ayant un comportement similaire en ce qui concerne le champ cible. Les
algorithmes d'arbres de décision constituent selon la vitesse et l’évolutivité.
Page 9
b. Règles de décision
Ils sont assez semblables à des arbres de décision et de produire une liste de règles
qui ont le format des états humains compréhensibles: SI (VALEURS PREDICTIVES)
ALORS (RESULTAT CIBLE ET SCORE DE CONFIANCE). Leur principale différence par
rapport aux arbres de décision, c'est qu'ils peuvent produire plusieurs règles pour
chaque enregistrement. Les arbres de décision génèrent des règles exhaustives et
mutuellement exclusives qui couvrent tous les records. Pour chaque enregistrement
une seule règle s'applique.
c. Régression
La régression est la méthode utilisée pour l’estimation des valeurs continues. Son
objectif est de trouver le meilleur modèle qui décrit la relation entre une variable
continue de sortie et une ou plusieurs variables d’entrée. Il s’agit de trouver une
fonction f qui se rapproche le plus possible d’un scénario donné d’entrées et de
sorties
d. Réseaux de neurones
Les réseaux de neurones sont des puissants algorithmes d'apprentissage automatique
qui utilisent des fonctions de cartographie complexe, non linéaire pour l'estimation et
classification. Ils sont constitués de neurones organisés en couches. La couche
d'entrée contient les prédicteurs ou neurones d’entrée. La couche de sortie comprend
dans le champ cible. Ces modèles permettent d'estimer des poids qui relient les
prédicteurs (de la couche d'entrée à la sortie).
Page 10
Des modèles avec des topologies plus complexes peuvent également inclure, couches
cachées intermédiaires, et les neurones. La procédure de formation est un processus
itératif. Enregistrements en entrée, avec des résultats connus, sont présentés sur le
réseau et la prédiction du modèle est évaluée par rapport aux résultats observés.
Erreurs observées sont utilisées pour ajuster et d'optimiser les estimations du poids
initial. Ils sont considérés comme des solutions opaques ou ''boîte noir'' car ils ne
fournissent pas une explication de leurs prédictions. Ils fournissent seulement une
analyse de sensibilité, qui résume l'importance prédictive des champs d'entrée. Ils
nécessitent une connaissance statistique minimum mais, selon le problème, peut
nécessiter un temps de traitement à long pour la formation.
f. Réseaux bayésiens
Les modèles bayésiens sont des modèles de probabilité qui peuvent être utilisées dans
des problèmes de classification pour estimer la probabilité d'occurrences. Ils sont des
modèles graphiques qui fournissent une représentation visuelle des relations
d'attributs, en assurant la transparence, et une explication de la justification du
modèle.
Page 11
B. Techniques non supervisées
Dans les modèles non supervisés ou non orientés, il n'y a pas de champ de sortie, il n’y
a que des entrées. La reconnaissance de formes est non orientée; elle n'est pas guidée
par un attribut cible spécifique. Le but de ces modèles est de découvrir des motifs de
données dans l'ensemble des champs d'entrée. Les modèles non supervisés
comprennent :
3) Clustering hiérarchique
Il considère comme la ''mère'' de tous les modèles de clustering. Il est appelé
hiérarchique ou d’agglomération, car il commence avec une solution où chaque
enregistrement comprend un groupe et peu à peu les groupes se former jusqu'au
point où tous tomber dans un super-cluster. À chaque étape, il calcule les distances
entre toutes les paires d'enregistrements et les groupes les plus similaires. Une table
(horaire d’agglomération) ou un graphique (dendrogramme) résume les étapes de
regroupement et les distances respectives. L'analyste doit consulter ces informations,
identifier le point où l'algorithme commence à cas disjoints de groupe, et de décider
ensuite sur le nombre de grappes à conserver. Cet algorithme ne peut pas traiter
Page 12
efficacement plus de quelques milliers de cas. Ainsi, il ne peut pas être directement
appliqué dans la plupart des tâches de regroupement d’entreprise. Une solution
habituelle consiste à une utilisation sur un échantillon de la population de clustering.
Cependant, de nombreux autres algorithmes efficaces qui peuvent facilement gérer
des millions d’enregistrements, le regroupement par échantillonnage n'est pas
considéré comme une approche idéale.
4) K-means
C'est un moyen efficace et peut-être l'algorithme de segmentation le plus rapide qui
peut gérer deux longues (plusieurs enregistrements) et des ensembles de données
larges (de nombreuses dimensions de données et des champs d'entrée). Il s'agit d'une
technique de segmentation basé sur la distance et, à la différence de l'algorithme
hiérarchique, il n'a pas besoin de calculer les distances entre toutes les paires
d'enregistrements. Le nombre de grappes d'être formés et est prédéterminée
spécifiée par l'utilisateur à l'avance. Habituellement, un certain nombre de solutions
différentes doit être jugé et évalué avant d'approuver le plus approprié.
IV. Conclusion
Data Mining apporte des différentes techniques pour donner une solution dans le
domaine d’application mais l’objectif reste le même est –il possible d’obtenir une
nouvelle connaissance à partir d’un ensemble de données spécifiques ?.
Page 13
. Chapitre 2 : Le Réseau de Neurones Artificiels
I. Introduction
L’inspiration à l’origine de la technique des « réseaux de neurones formels »,
communément appelé « réseau de neurones » vient du fait que le cerveau humain est
un système apprenant qui n’est pas basé sur les principes de la logique formelle mais
sur une structure, le cerveau humain, contenant environ 100 milliards de neurones
reliés entre eux par 10 000 contacts synaptiques soit environ un million de milliards de
synapses. Les réseaux de neurones formels sont une tentative pour imiter le
mécanisme d’apprentissage qui se produit dans le cerveau.
A. Présentations
Les neurones réels présentent trois régions principales : le corps cellulaire ou Soma,
les dendrites - prolongements relativement courts et arborescents du corps cellulaire -
et l'axone, prolongement long et fibreux. Un neurone utilise des dendrites pour
rassembler des données d’entrée issues d’autres neurones. Ces données d’entrée sont
combinées pour produire une réponse envoyée à d’autres neurones ou d’autres
cellules. Les axones transportent les influx en provenance du corps cellulaire vers
d’autres cellules [5].
Page 14
B. Fonctionnalités
Du point de vue classique, le neurone est une simple unité de processus qui reçoit
et combine des signaux provenant d’autres neurones à travers des filaments de
chemin d’entrée : les dendrites. Les dendrites se terminent par des filaments
dendritiques qui sont connectés avec le corps du neurone. Le soma a la forme d’une
pyramide ou de cylindre. La cellule est entourée par sa membrane, à l’intérieur de la
membrane est remplie du fluide intracellulaire et à l’extérieur le fluide extracellulaire.
La membrane du neurone et les fluides jouent des rôles très important dans son
opération et sa survivance. Quand la membrane est excitée par une certaine valeur
de potentiel supérieure à son seuil d’excitation, le phénomène d’excitation neurale,
transmet des signaux électriques : l’action potentielle, le long du chemin vers l’axone
qui débute par le segment initial. L’axone se termine par des filaments au bout
desquels se trouvent les boutons synaptiques( synapse signifie : contact en
grecque). Le contact avec les autres neurones se fait avec les dendrites des autres
neurones par l’intermédiaire de jonctions synaptiques.
A. Présentation de base
MacCulloch et Pitts sont les premiers à proposer, en 1943, un modèle formel de
neurones. Leur souci est de démontrer qu’un assemblage de leurs neurones était
capable de réaliser les fonctions logiques.
Page 15
Dans le cas du neurone formel, les données d’entrée (xi) sont recueillies à partir des
neurones du flux supérieur dans l’ensemble des données, et sont combinées dans une
fonction combinatoire telle la somme. Cette fonction combinatoire est en entrée
d’une fonction d’activation qui produit une réponse envoyée en entrée d’autres
neurones.
Les données sont X1, X2,...., Xn et puis le calcul de la somme en entrée pour
obtenir le résultat de sortie y [7]
B. Le Perceptron
Avant d'aborder le comportement collectif d'un ensemble de neurones, nous allons
présenter le Perceptron (un seul neurone) en phase d'utilisation. L'apprentissage
ayant été réalisé, les poids sont fixes. Le neurone de la figure suivante réalise une
simple somme pondérée de ses entrées, compare une valeur de seuil, et fourni une
réponse binaire en sortie. Par exemple, on peut interpréter sa décision comme classe
1 si la valeur de x est +1 et classe 2 si la valeur de x est -1 [7].
Page 16
Les connexions des deux entrées e1 et e2 au neurone sont pondérées par les poids w1
et w2. La valeur de sortie du neurone est notée x. Elle est obtenue après somme
pondérée des entrées (a) et comparaison à une valeur de seuil S
1) Introduction
Le Perceptron Multicouche fait partie des réseaux de neurones Multicouches [7].
Les réseaux sont constitués d’une couche d’entrée, d’une couche ou plusieurs
couches cachées et une couche de sortie.
Les PMC sont utilisés pour résoudre quelques problèmes difficiles en appliquant
l’apprentissage supervisé avec l’algorithme : La rétropropagation de l’erreur.
Page 17
2) Caractéristique du Perceptron Multicouches
Ce type de réseau possède trois caractéristiques distinctes :
3) . Algorithme de la rétropropagation
Le signe d’erreur à la sortie du neurone j à l’itération n est définie par :
ej= dj(n)-yj(n) .
neurones visibles pour lesquels les signaux d’erreur peuvent être calculés
directement par :
1
E(n)= ∑𝑗 𝑒𝑗2 (𝑛) .
2
1
Eav= ∑𝑁
𝑛=1 𝐸(𝑛) (Average square error energy)
𝑁
Page 18
Pour un apprentissage donné, Eav représente la fonction coût correspondant la
mesure de la performance de l’apprentissage.
La figure suivante montre le graphe de fluence avec les détails de sortie au niveau
du neurone j.
Y0=+10
Wj0(n)=bj(n) : biais
dj(n)
f
Vj(n))
Vj(n yj-1(n)
ej(n)
Yi(n)
Vj(n) =∑m
i=0 wji (n)yi(n) où m est le nombre total des entrées excluant le biais
appliquées au neurone j.
Yj=fj(vj(n))
Page 19
1 𝜕𝐸(𝑛)
Et comme E(n)= ∑𝑗 𝑒𝑗2 (𝑛) . on 𝑎 = 𝑒𝑗(𝑛)
2 𝜕𝑒𝑗(𝑛)
𝜕𝑒𝑗(𝑛)
et ej(n)=dj(n)-yj(n) on a = −1
𝜕𝑦𝑗(𝑛)
𝜕𝑦𝑗(𝑛)
Yj=fj(vj(n)) on a = fj’(vj(n))
𝜕𝑣𝑗(𝑛)
𝜕𝑣𝑗(𝑛)
Vj(n) =∑𝑚
𝑖=0 𝑤𝑗𝑖 (𝑛)𝑦𝑖(𝑛) on a = yi(n)
𝜕𝑤𝑗𝑖(𝑛)
𝜕𝐸(𝑛)
Donc =–ej(n) fj’(vj(n))yi(n)
𝜕𝑤𝑗𝑖(𝑛)
∂E(n)
La correction ∆wji(n) =ρ où ρ est le pas de l’algorithme de la
∂wji(n)
retropropagation
Le gradient local δj(n) pour la sortie du neurone j est égal au produit de l’erreur
ej(n) et de la dérivée de la fonction d’activation associée.
Quand le neurone j est détecté dans la couche cachée du réseau, il n’y a pas de
réponse désirée à spécifier pour ce neurone. En conséquence, le signal d’erreur
pour un neurone caché doit être déterminé de manière récursive :
Page 20
Avec le neurone j est dans la couche cachée
∂E(n)
Pour calculer ∂yj(n) on prend le neurone k au nœud de sortie, k représente la place
1
de j et E(n)= 2 ∑k e2k (n)
Notation :
A titre de résumé
g. Fonction d’activation
La fonction d’activation utilisée aux perceptrons multicouches doit être continue et
différentiable. Généralement, on utilise la fonction sigmoïde non linéaire.
Fonction logistique :
1
fj(vj(n))= 1+𝑒𝑥𝑝(−𝑎 𝑣𝑗(𝑛)) où a>0 et −∞ < 𝑣𝑗(𝑛) < +∞
𝑎 𝑒𝑥𝑝(−𝑎𝑣𝑗 (𝑛) )
f’j(vj(n))=(1+𝑒𝑥𝑝(−𝑎 𝑣𝑗(𝑛)))²
Page 21
Le gradient local pour le neurone j est
𝛿𝑗(𝑛) = ej(n)f’j(vj(n))=a[dj(n)-Oj(n)]Oj(n)[1-Oj(n)]
D’autre part pour un neurone j quelconque dans la couche cachée, nous pouvons
exprimer le gradient local δj(n) comme
En réalité une fonction tangente hyperbolique est juste une fonction logistique
biaisée.
Pour un neurone j dans la couche cachée, nous avons pour le neurone j caché
Le pas d’apprentissage
Page 22
Résumé : algorithme de la rétropropagation :
ETAPE 1 : Initialisation
Choisir les valeurs arbitraires pour tous les poids et les seuils. , on choisit des
valeurs petites.
Présenter le réseau pour une époque lors de l’apprentissage dans le sens direct et
inverse décrit à l’étape 3 et 4
Si on considère dans une époque un couple(x(n), d(n)) avec x(n) est appliqué à la
couche d’entrée et d(n) vecteur réponse désirée à la couche de sortie, le traitement
se fait couche par couche :
𝑚𝑜
(𝑙) (𝑙) (𝑙−1)
𝑣𝑗 (𝑛) = ∑ 𝑤𝑗𝑖 (𝑛)𝑦𝑖 (𝑛)
𝑖=0
(l−1)
Où yi (n) est le signal à la sortie du neurone i de la couche précédente l-1 à l’
(l)
itération n et wji (n) e le poids synaptique du neurone j dans la couche l
(l−1)
(n) = +1 et wj(l) (l)
Pour i=0 nous avons y0 i (n) = bj (n) le biais appliqué au
(𝐿) (𝐿)
(𝑙)
𝑒𝑗 (𝑛)𝑓𝑗′ 𝑉𝑗 (𝑛) 𝑛𝑒𝑢𝑟𝑜𝑛𝑒 𝑗 𝑑𝑎𝑛𝑠 𝑙𝑎 𝑐𝑜𝑢𝑐ℎ𝑒 𝑑𝑒 𝑠𝑜𝑟𝑡𝑖𝑒
𝛿𝑗 (𝑛)=
(𝑙+1)
(𝑛) 𝑤𝑘𝑗𝑙+1 (𝑛) 𝑛𝑒𝑢𝑟𝑜𝑛𝑒 𝑗 𝑑𝑎𝑛𝑠 𝑙𝑎𝑐𝑜𝑢𝑐ℎ𝑒 𝐿
(𝑙) ( )
{𝑓 𝑗 (𝑣𝑗(𝑛) ) ∑𝑘 𝛿𝑘
′
Page 23
La loi Delta généralisée est
ETAPE 5 : Retour à l’étape 3 tant que tous les poids ne vérifient pas tous les
exemples.
1) Présentation
L‘analyse réalisée par Kohonen apporte la méthode de classification non
supervisée.
Des données proches dans l’espace d’entrée vont avoir des représentations
proches dans l’espace de sortie et vont être classées dans une même classe ou
dans des classes voisines.
- D’une couche d’entrée : tout individu à classer est représenté par un vecteur
multidimensionnel(le vecteur d’entrée). A chaque individu est affecté un
neurone qui représente le centre de la classe.
- D’une couche de sortie ou couche de compétition : les neurones de cette
couche entrent en compétition. Seuls les meilleurs gagnent : Winner Takes All
(WTA).
Page 24
Figure 9: Architecture d'un Réseau de Kohonen
2) Principe
Une carte auto-organisatrice est un procédé qui convertit un signal d’entrée complexe
(plusieurs variables par exemple) en une nouvelle variables catégorielle : c’est donc un
procédé de classification (modélisation non-supervisée). Les SOM sont une
généralisation de l’analyse en composantes principales. Elle fonctionne comme un
réseau de neurones sans variable cible et avec plusieurs nœuds dans la couche de
sortie. La carte structure les nœuds en sortie en classes de nœuds
Page 25
Les valeurs des nœuds de la couche d’entrée (valeurs normalisées des variables prises
en compte par le modèle) sont distribuées dans les nœuds de la couche de sortie
après transformation en fonction des pondérations du réseau : on parle de « fonction
de score ». Cette fonction est généralement une fonction de distance euclidienne. Le
nœud de sortie qui a le meilleur résultat (on dit le « meilleur score ») est le « nœud
gagnant » : il reçoit l’individu en question. Le meilleur score c’est la plus petite
distance entre les poids de connexion et les données d’entrée.
Comme dans tous les réseaux de neurones, les nœuds d’une même couche, et
particulièrement de la couche de sortie, ne sont pas reliés entre eux. Toutefois, les
poids des nœuds de voisinage du nœud gagnant sont adaptés pour favoriser leur
victoire en cas de données similaires. C’est ce qu’on appelle la coopération et
l’adaptation des nœuds de la couche de sortie. L’adaptation, c’est ce qui correspond à
l’apprentissage.
3) Algorithme d’apprentissage
L’algorithme de classement est itératif.
b) Trouver le nœud gagnant (ou winner). C’est l’unité dont le vecteur associé est le
plus similaire au vecteur d’entrée.
Page 26
c) Modifier les poids Wi du nœud gagnant, ainsi que ceux de son entourage, de
manière à ce que les vecteurs associés (les vecteurs de poids) «se rapprochent
d’avantage» du vecteur d’entrée présenté à la grille.
d) Faire décroître la taille de la zone de voisinage des nœuds gagnants (la zone qui
contient les neurones subissant la transformation).
IV. Conclusion
Le réseau de neurone artificiel a été étudié et mise en place afin d’imiter le
fonctionnement du cerveau naturel. Deux techniques différentes sont présentées
dans notre cas à savoir la technique de l’apprentissage supervisé, et la technique
d’apprentissage non supervisé. Dans notre cas ces deux types utilisent l’architecture
multicouche.
Page 27
. Chapitre 3 : Méthodologie
I. Introduction
Dans le cadre d’obtenir un résultat à partir de la précision sur l’état de l’art, les
éléménts suivants précisent la façon et les moyens pour classifier les types de
clients afin d’en déduire le type, les majorités , la nouvelle orientation à mettre en
place. Les apports sur la démarche en Data Mining jouent un rôle très important
dans le choix des données d’apprentissage..
II. Démarche.
La situation dans des institutions de Micro finance se présente dans diverses
positions : comme le statut d’un client donné en fonction de l’âge, le sexe, le niveau
d’études atteintes, l’activité professionnelle. A son tour, le responsable clientèle
avant de mettre fin une négociation en vue traiter un contrat doit étudier le
comportement de prétendants.
3 mettre en place les données associées pour réaliser les prétraitements : les
données de tests
5 valider le résultat obtenu par les restes des données non utilisées.
Si le résultat reste fiable utiliser ce modèle dans la suite si non apporter des
améliorations sur le prétraitement, ou modifier le principe sur la collecte des
informations. Et répéter les étapes précédentes.
Page 28
III. Les Outils et matériels
Dans le cadre de du travail, afin d’obtenir une information à propos des clients
sous forme de fichier sous Ms Excel. A partir de ces données numériques la
conversion en fonction de logiciel de traitement en fichier .arff est nécessaire pour
le cas de WEKA
La modification des types de données, au lieu de type texte nous avons les modifier
en type numérique pour que le logiciel Matlab ait la simplification sur la présentation
modifie .
A. WEKA
Weka Machine Learning Project (GNU Public License)
• Format ARFF
WEKA est un logiciel de Datamining libre, qui peut utiliser les types de fichier
comme .arff, .csv, .data, .dat , etc…
Page 29
Explorer
Experimenter
KnowledgeFlow
Simple CLi
L’interface SimpleCli
L’interface Explorer
Elle est réservée sur l’utilisation des méthodes dont l’objectif est de
Lancer une méthode à partir d’un fichier ARFF qui est le type de fichier par défaut.
Page 30
Les résultats sont mis sous la forme d’un fichier texte normalisé.
Page 31
@ATTRIBUTE LOAN_CYCLE Numeric
% les données
@DATA
Un fichier .arff peut être créé, modifié avec un éditeur de texte simple
L’interface Experimenter
Page 32
L’interface KnowledgeFlow
Créer les liens entre les entrées et sorties de différents modules de manipulation, de
visualisation, de décision et d’analyse.
Programmation « iconique »
Créer les liens entre les entrées et sorties de différents modules de manipulation, de
visualisation, de décision et d’analyse.
Programmation « iconique »
B. Matlab
Sous Matlab, le travail s’effectue avec le ToolBoxes.
Pour pouvoir utiliser les RNA sous Matlab, nous allons travaillerons avec Neural
Network Clustering Tool : nctool. Afin de choisir Réseau Self Oraganization Maps
(SOM)
Page 33
Figure 16 NCtool de Matlab
Page 34
Figure 18 Le choix de tableau à importer dans le traitement
IV. Conclusion
La démarche ainsi que les deux outils informatiques permettent d’apporter la
signification et la solution à adopter dans le traitement de données au point de
vue de marketing cible. L’orientation générale sur l’avenir de traiter les clients.
Les deux outils utilisent les deux types d’apprentissage : Supervisé pour le PMC et
Non Supervisé sur l’utilisation de la carte de Kohonen.
Page 35
. Chapitre 4 : Résultat et Discussion.
I. Objectifs
La mise en place du système de classification des clients en fonctions des
informations de la base, pour s’orienter de quel type de client selon le niveau
d’études, le sexe, l’âge, de trouver un compromis sur le client à cibler .
Même si on travaille dans le secteur financier les clients cibles sont dans le
domaine de secteur privé et non pour les salariés mensuels, dont l’activité
principale est souvent le transport soit : le TAXI BE, TAXI, Taxi Brousse, Location de
voiture, Transport écolier.
Le client
Le contrat
II. Résultats
1. Utilisation de WEKA
Premier Essai
Page 36
Figure 19 Visualisation global de chaque variable
Page 37
Ensuite la classification en utilisant le PMC
Relation: clientMICRO-weka.filters.unsupervised.attribute.Remove-R9-
weka.filters.unsupervised.attribute.Remove-R8-
weka.filters.unsupervised.attribute.Remove-R7-
weka.filters.unsupervised.attribute.Remove-R5-
weka.filters.unsupervised.attribute.Remove-R5
Instances: 50
Attributes: 4
CATEGORY_DESC
CLIENT_AGE
CLIENT_GENDER
EDUCATIONAL
Sigmoid Node 0
Inputs Weights
Threshold -5.408245352235862
Node 5 -0.2878734939152444
Node 6 4.572773758988021
Node 7 1.8518219611823692
Node 8 0.5715784546408248
Node 9 1.2714318858288984
Sigmoid Node 1
Inputs Weights
Page 38
Threshold 5.071598408729493
Node 5 -0.2998923216246794
Node 6 -5.256453134381382
Node 7 -0.7701608437635081
Node 8 -1.1725942289657
Node 9 -1.3188158747201735
Sigmoid Node 2
Inputs Weights
Threshold -2.719237897768886
Node 5 -0.5207787325770364
Node 6 1.1589687133065827
Node 7 -2.0915560182095434
Node 8 0.7003933328067489
Node 9 -0.0987917130066498
Sigmoid Node 3
Inputs Weights
Threshold -2.770649392289135
Node 5 -0.4239704325962934
Node 6 0.3127745961552731
Node 7 -1.1227685620178767
Node 8 0.5885618626608037
Node 9 -0.370370033723459
Sigmoid Node 4
Inputs Weights
Threshold -2.8042442263852374
Page 39
Node 5 -1.0592100677916751
Node 6 -1.2274830661002303
Node 7 -1.202336277886075
Node 8 -1.0777756260119595
Node 9 -1.120293247048591
Sigmoid Node 5
Inputs Weights
Threshold -1.1880916596702857
Sigmoid Node 6
Inputs Weights
Threshold 2.7446642198022975
Sigmoid Node 7
Inputs Weights
Threshold 1.0717865159909983
Page 40
Attrib CATEGORY_DESC=SAHAZA -1.4435356271061792
Sigmoid Node 8
Inputs Weights
Threshold -1.0804789489079145
Sigmoid Node 9
Inputs Weights
Threshold -1.5856777890091864
Class SECONDAIRE
Input
Node 0
Class PRIMAIRE
Input
Page 41
Node 1
Class TECHNIQUE
Input
Node 2
Class CORANIQUE
Input
Node 3
Class UNIVERSITAIRE
Input
Node 4
Page 42
0 0 0 0 0 0.784 TECHNIQUE
0 0 0 0 0 0.828 CORANIQUE
0 0 0 0 0 ? UNIVERSITAIRE
a b c d e <-- classified as
30 1 0 0 0 | a = SECONDAIRE
9 5 0 0 0 | b = PRIMAIRE
3 0 0 0 0 | c = TECHNIQUE
2 0 0 0 0 | d = CORANIQUE
0 0 0 0 0 | e = UNIVERSITAIRE
Relation: clientMICRO-weka.filters.unsupervised.attribute.Remove-R2-4,7-9
Instances: 50
Attributes: 3
CATEGORY_DESC
RECRUITMENT
SECTOR
Sigmoid Node 0
Inputs Weights
Threshold -0.7716227197131299
Page 43
Node 7 1.235825695507246
Node 8 -0.8884314890616969
Node 9 -1.3400402450697344
Node 10 -1.11954016316131
Node 11 -0.7816382516972878
Sigmoid Node 1
Inputs Weights
Threshold -0.9963910092622584
Node 7 -2.183612626038378
Node 8 -0.35577118096711946
Node 9 3.615027321024749
Node 10 -0.542550389621681
Node 11 0.37208140751098673
Sigmoid Node 2
Inputs Weights
Threshold -1.7060139220484647
Node 7 2.149843963545949
Node 8 0.15502099673465536
Node 9 -3.720016801609955
Node 10 -0.9928107941807267
Node 11 1.5950344516330066
Sigmoid Node 3
Inputs Weights
Threshold -1.5092330765662003
Node 7 -1.1845892248215222
Page 44
Node 8 0.3558866298781405
Node 9 -2.1048608433220153
Node 10 -1.0874029014364237
Node 11 -1.1119602793199481
Sigmoid Node 4
Inputs Weights
Threshold -1.655774610255317
Node 7 -0.6700204639385505
Node 8 -1.9511030249833754
Node 9 -0.26352731137190444
Node 10 -0.34594541114027944
Node 11 -0.9422850010867798
Sigmoid Node 5
Inputs Weights
Threshold -1.5286637117262107
Node 7 -0.5088883693828112
Node 8 0.25181736228181434
Node 9 -0.44423451288669824
Node 10 -1.1201682960129673
Node 11 -1.1087909265630964
Sigmoid Node 6
Inputs Weights
Threshold -2.578137630324142
Node 7 -1.1919173433514676
Node 8 -1.4279916824152585
Page 45
Node 9 -1.1085585355029552
Node 10 -1.1538393880874118
Node 11 -1.0912414955351357
Sigmoid Node 7
Inputs Weights
Threshold -1.0321155559640847
Sigmoid Node 8
Inputs Weights
Threshold -1.048932599508355
Sigmoid Node 9
Inputs Weights
Threshold -0.20862847601036796
Sigmoid Node 10
Page 46
Inputs Weights
Threshold -0.8141583765585849
Sigmoid Node 11
Inputs Weights
Threshold -1.2898031471049607
Class AUTRES
Input
Node 0
Class BO
Input
Node 1
Class VISITE
Input
Node 2
Class RTV
Input
Node 3
Page 47
Class PUBLICITY
Input
Node 4
Class PROSPECTUS
Input
Node 5
Class ROADSHOW
Input
Node 6
Page 48
=== Detailed Accuracy By Class ===
0 0 0 0 0 0.372 PUBLICITY
0 0 0 0 0 0.255 ROADSHOW
a b c d e f g <-- classified as
2 8 1 0 0 0 0 | a = AUTRES
5 10 1 1 0 0 0 | b = BO
3 2 0 1 0 0 0 | c = VISITE
1 3 0 0 0 1 0 | d = RTV
2 2 0 0 0 0 0 | e = PUBLICITY
1 4 1 0 0 0 0 | f = PROSPECTUS
0 1 0 0 0 0 0 | g = ROADSHOW
2. Utilisation de Matlab
L’utilisation nntraintool de Matlab nous permet aussi de réaliser la classification
des informations.
Page 49
La distance voisine des poids de chaque sortie à fin de voir la stabilité sur les
valeurs de sortie calculée
Page 50
Les poids résultants de chaque nœud en entrée pour passer à la couche de sortie.
Page 51
La valeur 1 signifie que le type de souscription est le baobab
III. Discussion
Notre discussion s’oriente vers la situation de connaissances acquises à propos de
l’utilisation Data Mining afin d’apporter une nouvelle orientation et nouvelle vision
sur la population cible
Sur la classification au point de vue de l’âge sur la visualisation des données est de
30 à 45 qui signifie que ce sont des personnes qui ont besoin de travailler et en
plus selon leurs niveaux d’études , ces clients ont eu la moindre chance d’être
recruté dans les entreprises, les usines..
Page 52
. Conclusion Générale
La pratique du Data Mining dans les entreprises joue un rôle très important non
seulement en tant que outils de voir les causes d’une situation actuelle mais aussi
de prédire l ‘avenir de l’entité concernée.
La démarche utilisée respecte les cinq éléments présentés par CRISP-DM, les
difficultés rencontrées tout d’abord lors de la mise en place des données
d’apprentissage, l’acceptation des modèles, ensuite l’interprétation sur les résultats
de calcul informatique .
Dans notre cas, l’analyse apportée par les outils informatiques à savoir le WEKA
un logiciel de Data Mining avec l’apprentissage supervisé du Réseau de Neurones
de type Perceptron Multicouches ainsi que l’utilisation de Matlab pour la
classification non supervisé du Réseau de Neurones de type SOM de Kohonen
permettent de voir l’acquisition des nouvelles connaissances suivantes :
Les clients ont de l’âge productive dont les usines et les industries on en a
besoin
Les universitaires ne s’intéressent pas en général sur les micros finances et dans
ce cas le nombre d’industrialisation ainsi que la mise en place des PMI PME dans
notre pays reste toujours un obstacle.
Page 53
A l’avenir la mise en place d’un outil particulier réservé pour une institution
financière sera nécessaire car la plupart de nos institutions financières est tout
simplement une copie de ce qui est implantée en Afrique ou en Europe.
Ensuite l’optimisation des traitements sur l’utilisation des RNA au point de vue
complexité des algorithmes et durée de l’apprentissage restent encore un projet
de recherche pour les chercheurs.
Page 54
. Bibliographie
[1] Bertrand LIAUDET -Cours de Data Mining- Modélisations réseaux de neurones et
de Kohonen - EPF -4/5 Option Ingénierie d’Affaires et de Projets 2008
[10] Ela Righi, Techniques de DM pour la GRC dans les banques 2015
Auteur : RAKOTOMANANA René
E-mail : [email protected]
Titre :
Utilisation des Réseaux de Neurones Artificiels en Data Mining pour classifier les
clients dans une institution de Micro Finance
Résumé:
Le présent mémoire traite le moyen pour utiliser en Data Mining les Réseaux de
Neurones Artificiels dont le but est de classifier les clients afin de mettre en place
une nouvelle connaissance à utiliser dans le futur. Deux types de Réseaux de
Neurones artificiels sont utilisés : Le perceptron Multicouches pour l’apprentissage
supervisé et la carte de Kohonen pour l’apprentissage non supervisé.
Mots clés:
Abstract
The present memory treat the theme using an Neural Network Artificial as a classifier
on Data mining to give and purpose a new knowledge to manage clients. Two
types of Neural Network are used: the Perceptron Multilayer with supervised learning
and Kohonen Maps with unsupervised learning.
Keywords
Nombre de pages : 54
Nombre de figures : 24