1 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Remerciements
Le présent projet de fin d’études serait incomplet sans un mot de remerciement.
Nous tenons à remercier avant tout le bon Dieu de nous avoir éclairci le chemin pour Achever
ce travail.
Nous exprimons nos sincères gratitudes à notre Directrice et Encadrante de mémoire
Madame de nous avoir encadré, orienté, aidé et conseillé,
Nous sommes particulièrement reconnaissantes pour sa générosité et ses conseils
Méthodologiques et scientifiques,
Ainsi pour son suivi et pour son énorme soutien qu’elle n’a cessé de nous prodiguer tout Au
long la période du projet.
Nous remercions également tous les cadres enseignants, les intervenants et les personnes
Que nous avons pu rencontrer lors de la recherche qui ont su prendre du temps et se
Rendre disponibles et qui nous ont aidés de près ou de loin ont permis l’aboutissement de ce
mémoire.
2 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Liste des tableaux et figures:
Tableau 1 : Evolution des crédits distribués par l’ensemble des établissements de crédit (AZZOUZ ELHAMMA-2009)
Tableau 2 : Revue de littérature sur la théorie d’intermédiation financière (Amal Ben Hassena , 2006)
Tableau 3 : Les principales études sur la théorie d’asymétrie d’information (NEZIEN, 2010)
Tableau 4 : Tableau récapitulatif des techniques de scoring (Tufféry, 2012)
Tableau 5 : Caractéristiques principales de l’échantillon
Tableau 5 : Ratios retenus
Tableau 6 : Les principales statistiques descriptives des ratios
Tableau 7 : Moyennes comparées des ratios retenus
Tableau 8 : fonction score identifiée (extraite de SPSS
Tableau 9 : fonctions aux barycentres des groupes (extrait de SPSS
Tableau 10 : règle de décision (extrait de SPSS)
Tableau 11 : Coefficients des fonctions de classement (extraits de SPSS
Tableau 12 : Corrélation canonique et valeurs propres (extrait de SPSS)
Tableau 13 : Test de Lambda de Wilks (extrait de SPSS
Tableau 14 : Matrice de confusion
: Réseau de neurones artificiel
: Processus du Crédit Scoring (Liu2 (2001))
: Conception d’un réseau de neurones (Tufféry, 2012)
3 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Introduction
L’évolution du contexte économique financier et juridique conduit peu à peu à
structurer les échanges, sécuriser les transactions et adapter la législation notamment en
matière de défaillance des entreprises.
Nous avons remarqué qu’au cours des cinq dernières années la mesure et la gestion
prédictive ont pris de plus en plus d’importance dans le secteur économique en gros. Suscitant
le développement de nouveaux outils et moyens permettant de minimiser les pertes.
Les multiples travaux et recherches réalisés par un grand nombre de chercheurs et
professionnels depuis plus d’un demi-siècle ont rendu la littérature très riche et variée dans
ce domaine.
L’objectif principal de notre étude est de mettre en place et d’évaluer dans une optique
comparative, la performance prédictive de l’ensemble de méthodes de prévision qu’encadre
le data-mining.
L’analyse proposée dans le présent travail reste générale et plusieurs avenues de
développement peuvent être considérées pour couvrir l’ensemble des aspects des
phénomènes qui feront objet de ce genre d’études.
4 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Partie I: Fondements théoriques et conceptuels
I) Chapitre I : Le data mining : (définition, historique, concept) :
1-1) Qu'est-ce que le data Mining ?
Le data mining désigne le processus d’analyse de volumes massifs de données et du Big Data
sous différents angles afin d’identifier des relations entre les data et de les transformer en
informations exploitables. Ce dispositif rentre dans le cadre de la Business Intelligence et a
pour but d’aider les entreprises à résoudre des problèmes, à atténuer des risques et à
identifier et saisir de nouvelles opportunités business.
Plus particulièrement, il s’agit de l’extraction des informations intéressantes (non triviales,
implicites, préalablement inconnues et potentiellement utiles) et les analyser afin de trouver
des patrons cachés en utilisant des moyens automatiques. C’est un processus non élémentaire
de recherche de relations, corrélations, dépendances, associations, modèles, structures,
tendances, classes (clusters), segments, lesquelles sont obtenues de grande quantité de
données (généralement stockées sur des bases de données (relationnelles ou non). Cette
recherche est effectuée à l’aide des méthodes mathématiques, statistiques ou
algorithmiques.
Le Data Mining se considère comme un processus automatique, qui part des données
élémentaires disponibles dans un « Data Warehouse » à la « décision ».
1-2) Origine du concept
Le “data mining” que l’on peut traduire par “fouille de données” apparaît au milieu des
années 1990 aux États-Unis comme une nouvelle discipline à l’interface de la statistique et
des technologies de l’information : bases de données, intelligence artificielle, apprentissage
automatique (« machine Learning »). David Hand (1998) end Donne la definition salivate: «
Data Mining consists in the discovery of interesting, unexpected, or valuable structures in
large data sets». Voir également Fayyad & al (1996) et Friedman (1997). La métaphore qui
consiste à considérer les grandes bases de données comme des gisements d’où l’on peut
extraire des pépites à l’aide d’outils spécifiques n’est certes pas nouvelle. Dès les années 1970
Jean-Paul Benzécri n’assignait-il pas le même objectif à l’analyse des données ? : « L’analyse
des données est un outil pour dégager de la gangue des données le pur diamant de la véridique
nature ». On a pu donc considérer que bien des praticiens faisaient du data mining sans le
savoir.
5 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
On confondra ici le « data mining », au sens étroit qui désigne la phase d’extraction des
connaissances, avec la découverte de connaissances dans les bases de données (KDD où
Knowledge Discovery in Databases) (cf Hébrail & Lechevallier, 2003). Comme l’écrivent ces
derniers auteurs : « La naissance du data mining est essentiellement due à la conjonction des
deux facteurs suivants : - l’accroissement exponentiel dans les entreprises, de données liés à
leur activité (données sur la clientèle, les stocks, la fabrication, la comptabilité …) qu’il serait
dommage de jeter car elles contiennent des informations-clé sur leur fonctionnement (...)
stratégiques pour la prise de décision. - Les progrès très rapides des matériels et des logiciels
(…) L’objectif poursuivi par le data mining est donc celui de la valorisation des données
contenues dans les systèmes d’information des entreprises. » Les premières applications se
sont faites dans le domaine de la gestion de la relation client qui consiste à analyser le
comportement de la clientèle pour mieux la fidéliser et lui proposer des produits adaptés. Ce
qui caractérise la fouille de données (et choque souvent certains statisticiens) est qu’il s’agit
d’une analyse dite secondaire de données recueillies à d’autres fins (souvent de gestion) sans
qu’un protocole expérimental ou une méthode de sondage ait été mis en œuvre.
Quand elle est bien menée, la fouille de données a apporté des succès certains, à tel point que
l’engouement qu’elle suscite a pu entraîner la transformation (au moins nominale) de services
statistiques de grandes entreprises en services de data mining. La recherche d’information
dans les grandes bases de données médicales ou de santé (enquêtes, données hospitalières
etc.) par des techniques de data mining est encore relativement peu développée, mais devrait
se développer très vite à partir du moment où les outils existent. Quels sont les outils du data
mining et que peut-on trouver et prouver ?
1-3) Concept du data mining :
Les spécialistes du data mining obtiennent généralement des résultats fiables en
suivant un processus structuré et réitérable en six étapes :
1. Compréhension commerciale : développer une compréhension approfondie
des paramètres et du cadre du projet (incluant la situation commerciale
actuelle) et définir les facteurs clés de réussite.
2. Compréhension des données : déterminer les informations qui seront
nécessaires pour répondre à l’objectif défini, lister les ressources qui
contiennent les données utiles et rassembler ces dernières.
3. Préparation des données : préparer les données dans le format approprié
pour répondre à la finalité business et corriger les problèmes de qualité tels
que les doublons ou les données manquantes.
4. Modélisation : utiliser des algorithmes pour identifier des modèles.
5. Évaluation : déterminer si et dans quelle mesure les résultats obtenus par un
modèle aideront à atteindre l’objectif commercial final. Il y a souvent une
6 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
phase itérative pour trouver le meilleur algorithme et donc le meilleur
résultat.
6. Déploiement : mettre les résultats de l’analyse à la disposition des décideurs
et utiliser les informations finales pour adapter la stratégie.
II) Chapitre II : Les techniques prédictives du data mining :
2-1- Techniques prédictives /supervisées :
Dans la modélisation supervisée, ou prédictive, l'objectif est de prédire un événement
ou d'estimer les valeurs d'un attribut numérique continue. Dans ces modèles, il existe des
champs où les attributs d'entrée et une zone de sortie ou de la cible. Les champs d'entrée
sont également appelés prédicteurs, car ils sont utilisés par le modèle pour identifier une
fonction de prédiction de champ de sortie. Nous pouvons penser à des prédicteurs que la
partie X de la fonction et le domaine cible que la partie Y, le résultat. Le modèle utilise les
champs de saisie qui sont analysées en ce qui concerne leur effet sur le champ cible. La
reconnaissance de formes est ''surveillé'' par le domaine cible. Des relations sont établies
entre les champs d'entrée et de sortie. Une cartographie '' fonction d'entrée-sortie '' est
généré par le modèle, qui associe des prédicteurs et à la sortie permet la prédiction des
valeurs de sortie, étant donné les valeurs des champs d'entrée. Les modèles prédictifs sont
subdivisés en modèles de classification et d'estimation :
• Les modèle classification:
Dans ces modèles les groupes ou classes cibles sont connus dès le départ. Le but est
de classer les cas dans ces groupes prédéfinis ; en d'autres termes, à prévoir un événement.
Le modèle généré peut être utilisé comme un moteur de marquage pour l'affectation de
nouveaux cas pour les classes prédéfinies. Il estime aussi un score de propension pour chaque
cas. Le score de propension dénote la probabilité d'occurrence du groupe cible ou d'un
événement.
• Les modèle d’estimation :
Ces modèles sont similaires à des modèles de classification, mais avec une différence
majeure. Ils sont utilisés pour prédire la valeur d’un champ continu en fonction des valeurs
observées des attributs d'entrée.
Arbre de décision
Les arbres de décision fonctionnent en séparant de façon récursive la population
initiale. Pour chaque groupe, ils sélectionnent automatiquement l'indicateur le plus
significatif, le prédicteur qui donne la meilleure séparation par rapport au champ cible. À
travers des cloisons successives, leur objectif est de produire sous-segments pures, avec un
comportement homogène en termes de production. Ils sont peut-être la technique la plus
7 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
populaire de classification. Une partie de leur popularité, c'est parce qu'ils produisent des
résultats transparents qui sont facilement interprétables, offrant un aperçu de l'événement
à l’étude. Les résultats obtenus peuvent avoir deux formats équivalents. Dans un format de
règle, les résultats sont représentés dans un langage simple que les règles ordinaires : SI
(VALEURS PREDICTIVES) ALORS (RESULTAT CIBLE ET SCORE DE CONFIANCE). Dans une forme
d’arborescence, les règles sont représentées graphiquement sous forme d'arbre dans
laquelle la population initiale (nœud racine) est successivement divisé en des nœuds
terminaux ou feuilles de sous-segments ayant un comportement similaire en ce qui concerne
le champ cible. Les algorithmes d'arbres de décision constituent selon la vitesse et
l’évolutivité. Algorithmes disponibles sont: - C5.0 - CHAID - Classification et arbres de
régression - QUEST.
Règles de décision
Ils sont assez semblables à des arbres de décision et de produire une liste de règles
qui ont le format des états humains compréhensible: SI (VALEURS PREDICTIVES) ALORS
(RESULTAT CIBLE ET SCORE DE CONFIANCE). Leur principale différence par arbres de décision,
c'est qu'ils peuvent produire plusieurs règles pour chaque enregistrement. Les arbres de
décision génèrent des règles exhaustives et mutuellement exclusifs qui couvrent tous les
records. Pour chaque enregistrement une seule règle s'applique. Au contraire, les règles de
décision peuvent générer un ensemble de règles de chevauchement. Plus d'une règle, avec
des prédictions différentes, peut-être vrai pour chaque enregistrement. Dans ce cas, les règles
sont évaluées, à travers une procédure intégrée, afin de déterminer l'une pour l'évaluation.
Habituellement, une procédure de vote est appliquée, qui combine les règles et les moyennes
de leurs confidences individuelles pour chaque catégorie de sortie. Enfin, la catégorie ayant la
confiance la moyenne la plus élevée est sélectionnée comme la prédiction. Les algorithmes de
règles de décision comprennent : - C5.0 - Liste de décision.
Régression
La régression est la méthode utilisée pour l’estimation des valeurs continues. Son
objectif est de trouver le meilleur modèle qui décrit la relation entre une variable continue de
sortie et une ou plusieurs variables d’entrée. Il s’agit de trouver une fonction f qui se
rapproche le plus possible d’un scénario donné d’entrées et de sorties [DJE13].
Réseaux de neurone
Les réseaux de neurones sont des puissants algorithmes d'apprentissage automatique
qui utilisent des fonctions de cartographie complexe, non linéaire pour l'estimation et
classification. Ils sont constitués de neurones organisés en couches. La couche d'entrée
contient les prédicteurs ou neurones d’entrée. La couche de sortie comprend dans le champ
cible. Ces modèles permettent d'estimer des poids qui relient les prédicteurs (couche d'entrée
à la sortie). Modèles avec des topologies plus complexes peuvent également inclure, couches
cachées intermédiaires, et les neurones. La procédure de formation est un processus itératif.
8 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Enregistrements en entrée, avec des résultats connus, sont présentés sur le réseau et la
prédiction du modèle est évaluée par rapport aux résultats observés. Erreurs observées sont
utilisés pour ajuster et d'optimiser les estimations du poids initial. Ils sont considérés comme
des solutions opaques ou ''boîte noir'' car ils ne fournissent pas une explication de leurs
prédictions. Ils fournissent seulement une analyse de sensibilité, qui résume l'importance
prédictive des champs d'entrée. Ils nécessitent une connaissance statistique minimum mais,
selon le problème, peut nécessiter un temps de traitement à long pour la formation.
Figure 1 : Réseau de neurones artificiel
Machines à vecteurs supports (SVM)
SVM est un algorithme de classification qui peut modéliser les profils de données non
linéaires hautement complexes, et d'éviter les sur-apprentissages, c'est-à-dire la situation
dans laquelle un modèle mémorise les modèles ne concernent que des cas spécifiques
analysés. SVM fonctionne en données cartographiques à un espace de grande dimension
caractéristique dans lequel les enregistrements deviennent plus facilement séparables (ie,
séparés par des fonctions linéaires) à l'égard des catégories de cibles. Les données
d'entraînement d'entrée sont transformées de manière appropriée par les fonctions du noyau
non linéaires et cette transformation est suivie d'une recherche de fonctions plus simples,
s’est-il des fonctions linéaires, qui enregistre de façon optimale distincts. Les analystes
expérimentent généralement avec différentes fonctions de transformation et de comparer les
résultats. Globalement SVM est un algorithme efficace et exigeant, en termes de ressources
de mémoire et de temps de traitement. En outre, il manque de transparence puisque les
prévisions ne sont pas expliquées et seulement l'importance des prédicteurs est résumée.
Réseaux bayésiens
Les modèles bayésiens sont des modèles de probabilité qui peuvent être utilisées dans
des problèmes de classification pour estimer la probabilité d'occurrences. Ils sont des modèles
graphiques qui fournissent une représentation visuelle des relations d'attributs, en assurant
la transparence, et une explication de la justification du modèle.
9 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
III) Chapitre III: étude de cas : Prédiction du risque de crédit : étude comparative
des techniques de Scoring :
Section 1 : Gestion du risque crédit par le diagnostic financier classique, ses limites et ses
conséquences
1. Présentation du diagnostic financier classique et son rôle dans la gestion du risque crédit :
Etre un banquier, c’est analyser le risque. Chaque banque établit un diagnostic financier pour
décrire et porter un jugement sur la santé financière des entreprises sollicitant un crédit. Cette analyse
vise à « étudier le passé pour diagnostiquer le présent et prévoir l’avenir » (Vernimmen, 1998, p.162).
C’est dans cet esprit que le diagnostic financier s’est construit. Son objet est d’évaluer la solvabilité
future de l’entreprise à partir de l’analyse des informations comptables qu’elle fournit. Il s’agit
principalement d’une approche quantitative. Au Maroc, le diagnostic financier se focalise
essentiellement sur l’analyse des deux états de synthèse: le bilan financier qui constitue un document
permettant d’avoir une idée sur le patrimoine et donc sur la surface financière globale et le compte
des produits et des charges (CPC) qui présente le résultat de l’entreprise. Le bilan comptable répond
notamment aux préoccupations fiscales et ne permet pas d’avoir un jugement correct sur le risque
crédit, c’est pourquoi les banques établissent un autre bilan appelé « bilan financier ». Ce bilan est
présenté après affectation du résultat, les postes de l’actif et du passif sont classés respectivement par
ordre de liquidité et d’exigibilité croissante. L’établissement du bilan financier, à partir du bilan
comptable, nécessite de mener quelques retraitements. Le CPC permet d’établir, d’après un certain
nombre de retraitements, l’ESG (état des soldes de gestion) qui constitue un outil incontournable pour
diagnostiquer le résultat par le biais de quelques soldes : marge commerciale, VA (Valeur Ajoutée), la
CAF (Capacité d’Autofinancement), etc. Le diagnostic financier se fonde sur des soldes et des ratios
analysés dans le temps, généralement trois exercices comptables au minimum. Les principaux ratios
que la banque doit analyser sont les ratios de structure financière qui sont principalement le ratio de
financement des immobilisations, l’équilibre financier, l’indépendance financière, la capacité de
remboursement, etc. ; les ratios de liquidité, notamment la rotation du crédit clients, la rotation du
crédit fournisseurs, etc. et les ratios de rentabilité qui sont principalement la marge commerciale, la
rentabilité économique, la rentabilité financière, etc. Le diagnostic financier orienté vers
l’identification des entreprises présentant une fragilité doit pouvoir détecter la probabilité de
défaillance au travers de certains signes annonciateurs, car l’existence de difficulté se traduit
généralement par certains clignotants ponctuels. Selon l’Union Européenne des Experts Comptables
(cité par Casta et Zerbib, 1979), les indicateurs de la dégradation peuvent être résumés ainsi : un fonds
de roulement négatif ou même une situation nette négative, d’importants emprunts à court terme ont
été réalisés pour financer des prêts et des investissements non réalisables rapidement, des emprunts
importants viennent à échéance sans qui apparaissent des possibilités de renouveler ces crédits,
impossibilité de régler les dettes à l’échéance normale, persistante d’une mauvaise gestion évidente,
etc. Peyramaure et Squarcioni (1981), quant à eux, ont identifié quelques indicateurs de difficulté des
entreprises. Ces indicateurs sont essentiellement l’allongement du crédit fournisseurs, ou, au
contraire, son retrait, le recours à des modes de financements nouveaux (factoring, créditbail…) et
onéreux, l’alourdissement des frais financiers, la réalisation d’actifs immobilisés, la suspension des
dividendes, etc. Le diagnostic financier permet d’avoir une idée sur la santé financière des entreprises
et donc d’identifier celles qui seront défaillantes. Toutefois, il présente plusieurs limites qui
aboutissent à des conséquences néfastes. 1.1.2- Principales limites et conséquences du diagnostic
financier classique Le diagnostic financier présente plusieurs limites pour une banque, ces limites sont
10 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
liées essentiellement à la construction du bilan financier et à la non maîtrise des postes à risque. Pour
construire un bilan financier, les banques ne tiennent pas en compte que quelques retraitements
économiques. Parmi ces retraitements, nous citons par exemple les provisions pour risque et charges,
les provisions réglementées, les subventions d’investissements, les comptes courants d’associés, les
écarts de conversion actif, les plus ou moins-values sur actifs, etc. le diagnostic financier qui ne prend
pas en considération ces retraitements ne permettent pas d’affiner davantage la gestion du risque
crédit. Toutefois, la prise en compte de ces retraitements engendre des coûts importants
supplémentaires que les banques doivent supporter. Egalement, les comptes de l’entreprise sont
souvent aménagés pour donner une image plus flatteuse que la réalité. Les postes que la banque doit
maîtriser sont essentiellement : les frais de recherche & développement, la production immobilisée,
les stocks (qui peuvent fictifs), les plus-values exceptionnelles, les dettes sur comptes courants des
actionnaires, etc. En plus de ces deux grandes catégories de limites techniques, le diagnostic financier
nécessite pour une banque beaucoup de temps et un personnel qualifié, ce qui entraîne une
augmentation des coûts. Ces limites conduisent généralement à des conséquences néfastes.
Malheureusement, l’inexistence de publications spécifiques aux indicateurs de risque crédit propres
aux entreprises nous a poussé à faire appel aux conséquences globales de la gestion classique du risque
crédit (tableau n°1).
2000 2001 2002 2003 2004 2005 2006 2007
Crédits 204.45 208.03 214.28 231.27 247.29 278.13 327.36 422.6
accordés
Créances en 35.80 35.70 38.02 43.22 47.07 43.61 35.61 33.31
souffrance
Taux de 17.51 17.16 17.74 18.69 19.03 15.68 10.88 7.88
contentieux
Tableau : Evolution des crédits distribués par l’ensemble des établissements de crédit, des
créances en souffrance et du taux de contentieux durant la période 2000-2007 (en milliards de
Dirhams) (AZZOUZ ELHAMMA-2009)
Le tableau ci-dessus montre que les crédits distribués par l’ensemble des établissements de
crédit ont une tendance à la hausse, de 2000 à 2007, les crédits distribués ont augmenté de 106,7%.
D’une manière générale, cette augmentation n’a pas entraîné une augmentation des créances en
souffrance. Ces dernières ont connu une diminution de 6,95% en 2007 par rapport à 2000. Le taux de
contentieux a connu une amélioration significative depuis 2005, mais il reste encore très inquiétant
(environ 8% en 2007). Devant cette situation, des nouvelles méthodes ont été inventées pour la
gestion du risque crédit dont les systèmes experts, la notation externe, le crédit scoring, etc. toutefois,
la méthode du scoring peut être adoptée par les banques marocaines dans un futur proche, alors que
les autres nécessitent des investissements significatifs en matière d’intelligence artificielle
Section 2 : La méthode du scoring : outil privilégié de la gestion du risque crédit
1 - La méthode du scoring : outil privilégié de la gestion du risque crédit
1.1. Définition et avantages du crédit scoring
Introduction :
L’octroi du crédit constitue la principale source de revenus des établissements
bancaires, en même temps, il entraîne des risques importants s’il n’est pas bien géré, d’où
l’importance de la maîtrise des risques bancaires qui représente le thème central des accords
11 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
de Bâle. Le risque de défaillance a des conséquences majeures à la fois sur le pilotage
stratégique et financier des banques et sur la perception par le marché de la structure de leur
portefeuille d'activités et de la rentabilité. En effet, la maîtrise de la gestion du risque de crédit
ne peut être pratiquée d’une manière efficace sans la connaissance du marché du crédit ainsi
que les différents déterminants relatifs au secteur bancaire qui peuvent apprécier ce risque.
Ainsi, la mesure du risque de crédit est primordiale tant il est difficile d’anticiper l’évolution
de la situation de l’emprunteur. Cette maîtrise permettra au banquier de prendre une décision
d’acceptation ou de refus de contracter le prêt en fonction des données relatives à
l’emprunteur. Généralement, le risque de défaut se calcule selon les trois paramètres de
détermination de défaut : l’évaluation de la perte en cas de défaut, le taux de recouvrement
en cas de défaut et la probabilité de défaut. De ce fait, les établissements bancaires sont donc
très intéressés à développer des modèles d’analyse, de mesure et d’évaluation du risque de
crédit plus précis afin d’apprécier le rendement des prêts accordés. Parmi ces méthodes de
prédiction, on peut citer le crédit Scoring, cette méthode implique l’exploitation des
différentes techniques statistiques pour aboutir à une fonction score basée sur les
caractéristiques de l’emprunteur et qui aide à la prise de décision dans l’octroi de crédit. Dans
la pratique, on trouve une variété de techniques allant des méthodes conventionnelles telles
la méthode de régression linéaire multiple, analyse probit, régression logistique, analyse
discriminante ou bien des techniques avancées comme l’algorithmique, le système d’expert
(Hand & Henly, 1997). Dans la littérature financière, d’autres méthodes ont été récemment
développées comme les modèles basés sur l’intelligence artificielle dont on peut trouver les
réseaux de neurones artificiels, cette technique est en plein essor, utilisée dans de
nombreuses disciplines comme (la médecine, le marketing, la finance…), elle constitue, une
alternative intéressante aux techniques statistiques traditionnelles pour le traitement des
données. Dans ce présent article, nous allons présenter le concept du crédit Scoring, ensuite
nous exposons les différentes méthodes d’évaluation du risque de crédit, ces techniques
demeurent nécessaires afin de prévenir et d’anticiper ce type de risque. La décision d’octroi
du prêt constitue une opération risquée lorsque l’emprunteur ne rembourse pas ses dettes à
l’échéance fixée, chose qui affecte la situation financière de la banque. Dans ce cadre, la
maîtrise du risque de crédit devient aujourd’hui l’une des principales préoccupations des
établissements bancaires qui ne cessent de développer les moyens et techniques statistiques
de prévision du risque de crédit, car une gestion bien étudiée permet de faciliter et
d’améliorer l’efficacité de la prise de décision. Notre étude consiste à analyser les différentes
techniques du scoring qui peuvent être classer en méthodes statistiques basées sur les
données comptables comme l’analyse discriminante (Altman, 1968), la régression logistique
(Lachenbruch et alii, 1973) et techniques d’intelligence artificielle comme les systèmes
d’expert, les réseaux de neurones (Altman et alii, 1994 ; Bardos et Zhu, 1997) ou les
algorithmes génétiques (Varetto, 1998) 1 . À travers cet article, nous avons jugé utile dans un
premier lieu de cerner les différents concepts du crédit scoring avec une analyse de son
processus de construction, en second lieu
Nous nous intéresserons à la présentation des différentes méthodes de prédiction du
risque de crédit. Dans ce cadre, nous nous appliquerons à exposer la théorie d’intermédiation
financière et la théorie d’asymétrie d’information essentielles à la compréhension de
l’économie bancaire et particulièrement à la relation entre le prêteur (la banque) et
12 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
l’emprunteur. Enfin, on établira une analyse comparative des importantes techniques du
crédit scoring.
1.2 Revue littéraire
Concept du crédit Scoring
Le crédit scoring est généralement considéré comme une méthode d’évaluation utilisée par
les organismes bancaires pour estimer le risque de défaut et mesurer la solvabilité de chaque
entreprise et lui classer soit comme une entreprise saine ou une entreprise défaillante. Il
impose d’utiliser les différentes techniques statistiques en vue d’obtenir un modèle de scoring
basé sur les caractéristiques de l’emprunteur. Pour (Flaman, 1997), le crédit scoring est le
processus d’assignation d’une note (ou score) à un emprunteur potentiel pour estimer la
performance future de son prêt. (Thomas et al. 2002) stipulent que le crédit Scoring
représente un ensemble de modèles de décision et des techniques sous-jacentes qui
permettent de décider l’octroi des crédits de consommation. (Bardos, 2001, 2008a, 2008b)
souligne que le scoring est une analyse statistique permettant de prédire la qualité d’un
emprunteur. Cette méthode s’inscrit dans le Data Mining, il est défini par R. Anderson (2007)
comme l’ensemble des modèles statistiques capables de transformer des informations
(qualitatives, quantitatives) en indicateurs numériques mesurables afin de prendre la décision
d'octroi ou de rejet du prêt. La technique de scoring permet d’utiliser des modèles statistiques
afin de transformer des données (qualitatives, quantitatives) en indicateurs numériques
mesurables à des fins d'aide à la décision d'octroi ou de rejet de crédit. Dans le même d’ordre
d’idée, Gilbert S’apporta définit le Crédit Scoring comme un ensemble d'outils d'aide à la
décision permettant aux organismes financiers de mesurer le risque de crédits octroyés. Les
méthodes de scoring ont été utilisées dans plusieurs domaines autres que le marché du crédit,
en assurance automobile, en prospection publicitaire, en épidémiologie, pour distinguer entre
les malades et les sains, etc…. Mais généralement, cette méthode est utilisée par les banques
afin de prévoir le risque de défaut d’un emprunteur (un particulier ou une firme). À travers
l’historique des données des prêts précédents, le scoring permet d’attribuer une note appelée
« score », qui permet de prédire la probabilité de défaut pour les nouveaux crédits. Le
Figure 2 : Processus du Crédit Scoring (Liu2 (2001))
13 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Processus du crédit scoring peut être résumé comme suit :
2. Processus de construction d’un modèle de Scoring
La construction d’une fonction de score repose sur la disposition de deux groupes, un
groupe constitué des emprunteurs défaillants et un autre groupe composé des
Emprunteurs sains. L’élaboration de ce modèle nécessite aussi un certain nombre de
critères :
La détermination du critère de défaillance.
Le choix des variables explicatives de ce défaut.
Le choix de la technique qui permet d’évaluer de ce défaut.
2.1 La détermination du critère de défaillance :
Il est nécessaire de disposer des données historiques sur les défauts qui doivent couvrir un
cycle économique complet de même, d’élaborer un échantillon représentatif d’emprunteurs
en situation de défaut. Ces emprunteurs doivent faire partie à des populations homogènes
afin de chercher et détecter les caractéristiques économiques financières les plus prédictifs le
plus les emprunteurs sains de ceux en défaut. L’élaboration du modèle de scoring nécessite
aussi la détermination d’un horizon de prédiction. Prenant l’exemple des données de l’année
N-3 pour prévoir la défaillance de l’année en cours, dans ce cas, l’horizon de prédiction sera
de trois ans.
2.2 Le choix des variables explicatives :
La construction d’une base de données est fondée sur la collecte des données utiles et
fiables qui affectent la capacité du remboursement de l’emprunteur. Ces données
représentent des variables collectées de l’historique et qui doivent présenter des dimensions
différentes du risque de défaut et informer sur les caractéristiques de l’emprunteur, du crédit
et du prêteur (la banque). Une variété de variables peut s’introduire dans le modèle, on trouve
:
Les données qualitatives de l’emprunteur :
Elles concernant les caractéristiques démographiques, l’activité professionnelle,
l’ancienneté dans l’activité, l’expérience, sa localisation géographique, le ménage auquel il
appartient et les avoirs de la famille, existence d’incident dans le passé. Ces données
concernent les scores des clients particuliers.
Les données comptables et financières :
Elles concernent généralement les ratios financiers (solvabilité, activité, taille,
endettement, liquidité,) pour les entreprises.
• Les caractéristiques du crédit :
14 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Elles concernent le montant du crédit demandé, le taux d’intérêt, le délai de
remboursement, montant des remboursements, du différé et, le cas échéant, des types de
garanties ….
• Les caractéristiques du prêteur :
La banque doit disposer des informations concernant l’agent chargé de crédit (son niveau
d’étude, ses caractéristiques socio démographiques, sa situation familiale, son niveau
d’étude). Ces caractéristiques doivent figurer dans la base de données de la banque afin que
la méthode du scoring puisse être pratiquée pour la construction de la fiche d’évaluation.
2.3 Le choix de la technique à utiliser :
Avec le développement des différents besoins des systèmes de crédit scoring, on
assiste à une variété des méthodes d’évaluation du risque de crédit avec un objectif identique
qui est l’augmentation de l'efficacité des prises de décision. Le principe de ces méthodes est
d’identifier les variables qui déterminent la probabilité de défaut afin de pondérer leurs poids
dans un score quantitatif. Ces systèmes de crédit scoring sont mis en place à partir de quatre
principales formes de modélisation multivariée :
Le scoring par le modèle linéaire.
Le scoring par le modèle d'analyse discriminante.
Le scoring par le modèle logit.
En plus de ces techniques, on trouve d’autres méthodes d’intelligence artificielle citées
par S. Truffer (2007) :
Les réseaux de neurones.
Les arbres de décision
Les systèmes experts.
Algorithmes Génétiques
Dans ce cadre, on peut poser les questions suivantes : 1. Quelles sont ces techniques de
prédiction et d’évaluation du risque de crédit ? 2. Qu’est ce qui caractérise les techniques
intelligentes par rapport aux autres méthodes traditionnelles de crédit scoring sachant que
les deux catégories disposent d’un objectif commun qui est le classement des entreprises
en saines et défaillantes ?
3 Les méthodes de prédiction du risque de crédit :
La revue de littérature nous offre des diverses méthodes de prédiction du risque de
crédit classées sous forme de méthodes basées sur le jugement humain, les méthodes
statistiques et les méthodes basées sur l’intelligence artificielle.
3.1 L’Analyse financière :
L’analyse Financière est une technique de l’approche traditionnelle. Il s’agit
probablement de la méthode à la fois la plus ancienne et la plus utilisée en analyse du risque
qui a pour objectif d’étudier le passé afin de prévoir le présent et l’avenir, (Vernimmen, 1998).
L’établissement de crédit va établir différents ratios (de structure, d’endettement, de
rentabilité et de liquidité) et calculs pour vérifier la performance de l’entreprise à travers son
15 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
compte de résultat et son bilan. Selon (Ndaynou, 2001). Cette analyse se concentre sur deux
éléments :
• Le flux de liquidité futur : est obtenu par le calcul de la différence entre les entrées
et les sorties de flux réalisés par l’entreprise. Ce flux de liquidité permet d’avoir une visibilité
sur la capacité du débiteur à rembourser ses dettes sans mettre en péril son activité durant
un emprunt. La banque peut continuer à consulter l’évolution des bénéfices et voir si elles
sont suffisantes par rapport au besoin en fonds de roulement.
• Le fonds de roulement permet d’apprécier l’équilibre financier de l’organisation. Il
indique si l’entreprise est pérenne et pourra assurer ses engagements. Pour le calculer il existe
deux méthodes : Soit par le haut du bilan avec la différence entre les ressources stables
(capitaux propres et dettes à long terme) moins les emplois stables (actif immobilisé net). Soit
par le bas du bilan avec la différence entre l’actif circulant d’exploitation et les dettes à court
terme. »
3.2 L’analyse discriminante multivariée :
L’analyse discriminante est un outil statistique qui permet de distinguer à partir d’un
ensemble d’entreprises séparées en 2 groupes les entreprises saines et les entreprises
défaillantes en tenant compte leurs caractéristiques spécifiques. L’analyse discriminante
permet de décrire, d’expliquer et de prédire l’appartenance d’un ensemble d’observations sur
la base d’une série de variables prédictives à des groupes prédéfinis. Du point de vue pratique,
l’analyse discriminante permet une combinaison linéaire optimale entre des variables
prédictives pour différencier les entreprises saines des entreprises en détresse. L’analyse
discriminante exige que la variable à expliquer soit de nature qualitative et les variables soient
indépendantes et distribuées selon une loi normale. Sa formule se présente comme suit :
Avec (Z) représente le score de l’entreprise. L’analyse discriminante de Fisher est une
technique descriptive permettant une représentation graphique de combinaisons de variables
initiales. Elle permet de produire une suite de variables discriminantes, les entreprises des
mêmes groupes soit les plus proches soit celles d’autres groupes différents. La dispersion à
l’intérieur du groupe est présentée par la matrice de variance covariance Wk :
3.3 La régression logistique :
Desjardins (2005) définit la régression logistique comme une technique permettant
d'ajuster une surface de régression à des données lorsque la variable dépendante est
dichotomique. Cette technique est utilisée pour des études ayant pour but de vérifier si des
variables indépendantes peuvent prédire une variable dépendante dichotomique. 4 Cette
méthode est très utilisée en médecine (caractérisation des sujets malades par rapport aux
16 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
sujets sains par exemple), en marketing et commence à prendre de l’ampleur dans les sciences
économiques et de gestion vu son vif succès. La régression logistique est une technique
statistique qui s'utilise lorsque la variable dépendante est qualitative, le plus souvent binaire
ou dichotomique. Quant aux variables explicatives, ils peuvent être soit qualitatives soit
quantitatives. L’intérêt majeur de cette technique est de mesurer la relation de l’association
entre chaque variable indépendante et la variable dépendante, en tenant compte de l’effet
des autres variables intégrées dans le modèle. Le modèle fournit la probabilité qu'un
événement se produise ou non (dans notre cas défaut ou non défaut) et les variables
indépendantes X sont celles susceptibles d'influencer la survenue ou non de l'événement. La
fonction logistique s’écrit de la manière suivante :
Le fondateur de la régression logistique est Ohlson (1980), il est le premier à publier
une étude pour prédire la défaillance en utilisant un modèle logit. Ohlson a utilisé neuf
variables comptables afin de prédire la probabilité de défaut de l’emprunteur en supposant
que cette probabilité est distribuée logistiquement. Ainsi, la fréquence cumulative des défauts
prend la forme fonctionnelle logistique et peut ainsi, prendre des valeurs contenues entre
zéro et un. Les ratios utilisés par Ohlson sont comme suit :
• Log (total des actifs / niveau d’indice du prix)
• Total des dettes / total des actifs
• Fonds de roulement / total des actifs
• Dettes exigibles / actif circulant
• Résultat net / total des actifs
• Fonds générés par l’exploitation / total des dettes
• Le résultat net
• Une variable binaire qui prend 1, si total des dettes est supérieur au total des actifs,
sinon elle est égale à 0
• Une variable qui prend ‘1’ si le résultat net des deux dernières années est négatif,
sinon elle est égale à ‘0’.
Face aux contraintes liées à l’application des méthodes paramétriques, d’autres
techniques empruntées à l’intelligence artificielle sont apparues. Selon certaines études
comparatives, plus précisément celles qui appliquent les approches d’intelligence artificielle à
la prévision de la défaillance de l’entreprise, confirment leur supériorité par rapport à l’analyse
17 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
discriminante en matière de la qualité de prévision. A côté des outils paramétriques,
l’utilisation des réseaux neurones par Altman et al (1994), Bardos et Zhu (1997), les systèmes
d’experts par les établissements bancaires et les grandes entreprises s’est intensifiée.
4 Les techniques intelligentes :
Face à la montée en puissance des progrès de l’information (2000), les établissements
bancaires et les grandes entreprises ont fait appel à d’autres modèles telles les méthodes de
l’intelligence artificielle, celle des réseaux neurone qui sont utilisées pour la prédiction du
phénomène de défaillance. Ces modèles relèvent du domaine de l’intelligence artificielle, plus
particulièrement la branche liée à l’apprentissage automatique.
4.1 Les Systèmes experts :
« Un système-expert est un outil informatique d’intelligence artificielle, conçu pour
simuler le savoir-faire d’un spécialiste, dans un domaine précis et bien délimité, grâce à
l’exploitation d’un certain nombre de connaissances fournies explicitement par des experts
du domaine. » J.C. Pomerol. Davis (1986), précise que les systèmes experts sont utiles pour
résoudre des problèmes complexes comme la stratégie d'entreprise, l’évaluation, la prise de
décision et la résolution de problèmes. Cette méthode d’intelligence artificielle est considérée
comme :
• Un système de décision : dans ce cas le système propose des choix à suivre
• Un système d’aide à la décision : dans la mesure où le système est capable
de proposer des choix tout en gardant une marge du pouvoir décisionnel
d’interprétation.
• Un système d’aide à l’apprentissage : le système joue le un rôle d’un
formateur afin de développer les connaissances.
Dans le cadre de décision d’octroi du crédit, les systèmes experts sont basés sur les
règles relatives aux caractéristiques du client identifié par les responsables du crédit. Ces
règles permettent d’évaluer le risque de défaut de chaque emprunteur et d’attribuer un score
selon leurs caractéristiques.
4.2 Les réseaux de neurones artificiels :
Parmi les méthodes non paramétriques, on trouve les réseaux de neurones qui
occupent une place prépondérante dans le domaine de classification et de prédiction. Cette
approche neuronale a récemment attiré l’attention des chercheurs. Elle s’est développée dès
les années 80, pour faire face aux limites de l’analyse discriminante dans la prédiction du
risque de crédit des entreprises (Anandarajan, Lee et Anandarajan, 2001). Ils ont été utilisés
pour mesurer le risque de défaillance par les ratios financiers, (Leshno et Spector, 1996 ;
Bardos et Zhu, 1997). Ces modèles neuronaux sont utilisés dans différents domaines comme
le marketing, le data mining, la médecine…, (Liu et Yu, 2005), mais ils sont moins exploités
dans le champ de la prédiction du risque de défaillance. Le fonctionnement d’un réseau de
neurones passe par trois phases :
• La phase d’input
• La phase de la fonction de transfert
• La phase d’apprentissage.
4.2.1 La phase d’Input :
18 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Les réseaux reçoivent les informations sur une couche réceptrice contenant des
neurones. Ces derniers traitent ces informations avec ou sans l'aide d’une ou plusieurs
couches cachées contenant une ou plusieurs neurones produisant un signal ou plusieurs de
sorties. Chaque neurone appartenant soit à la première couche (réceptrice), soit aux couches
cachées ou à la couche de sortie est liée aux autres neurones par des connexions (similaires
aux synapses du cerveau) auxquelles sont affectés des poids (eux-mêmes assimilables aux
potentiels synaptiques).
Les réseaux de neurones, dans le cadre du crédit scoring, permettent de mettre en
relation les inputs (la base de données qui est composée des dossiers de crédits) et les outputs
(le résultat du crédit : bons payeurs ou mauvais payeurs) sans supposer que cette relation est
linéaire. Le processus de traitement se présente comme suit :
• Une couche d’input : La couche d’input est composée des neurones qui reçoivent des
signaux de l’environnement. Cette couche sert à distribuer les valeurs d’entrées aux neurones
des couches supérieures, éventuellement multipliées ou modifiées d’une façon ou d’une
autre. Le nombre de neurones d’entrée dépendent du nombre de variables dans le vecteur
d’input.
• Des couches cachées : Les neurones dans ces couches n’ont aucune interaction
directe avec l’environnement. Ils se situent entre la couche d’entrée et la couche de sortie. La
détermination du nombre des neurones dans les couches cachées est la tâche la plus difficile
dans les réseaux de neurones en général. Il est préférable d’utiliser un nombre réduit de
neurones cachés, mais il est insuffisant aussi d’utiliser que deux neurones pour modéliser un
ensemble de données.
• Une couche d’output : Les neurones de cette couche émettent des signaux à
l’environnement. Elle calcule une somme pondérée de toutes ses entrées. Le nombre des
neurones de sortie est rattaché au problème étudié. La figure ci-dessous montre bien le
fonctionnement et l’architecture d’un réseau de neurones. En effet, Chaque entrée est liée à
un poids 𝒘𝒊 appelé aussi poids synaptique, ce poids constitue une force de connexion.
Figure 3: Conception d’un réseau de neurones (Tufféry, 2012)
Le neurone ne traite pas chaque information reçue unilatéralement, mais effectue une
somme pondérée de toutes les entrées. Cette somme est représentée sous la fonction de
combinaison suivante :
19 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Avec :
- b : le biais de neurone ou seuil d’activation du neurone.
- 𝑥𝑖 : l’information qui parvient aux neurones de rang i de la couche d’entrée
- R : le nombre d'informations
- 𝑤𝑖: la pondération du signal émis par le neurone de la couche d’entrée vers le neurone
de la couche cachée.
- a : le niveau d'activation du neurone, qui est le signal total reçu par le neurone de la
couche cachée.
4.2.2 La phase de la fonction de transfert
Chaque neurone reçoit les informations transformées par les neurones de la couche
précédente avec lesquels il se trouve en relation pour calculer son potentiel d’activation. La
fonction d'activation, ou fonction de transfert, est la fonction qui détermine l’output d’un
neurone à partir de la somme des poids pondérée des entrées du réseau. La fonction
d’activation des couches cachées est souvent non linéaire, ce qui confère au RNA la propriété
de non-linéarité. Il existe plusieurs types de fonctions de transfert, on trouve : la fonction de
Heaviside, La fonction linéaire, La fonction sigmoïde exponentielle, mais la fonction la plus
utilisée est la fonction sigmoïde, elle est définie comme une fonction réelle de R vers R,
continue, bornée, sachant que sa dérivée est toujours positive. Elle peut prendre deux formes
: la fonction logistique exponentielle, ou la fonction hyperbolique. (Masters (1993)).
4.2.3 La phase d'apprentissage
Parmi les caractéristiques les plus importantes des réseaux de neurones est
l’apprentissage, cette dernière repose sur le développement du réseau de neurones jusqu'à
l’obtention du résultat attendu. Autrement dit, le fonctionnement du réseau de neurones
repose sur la fourniture des données en entrée que le neurone doit apprendre à reconnaître
dans le but de les classer en sous-groupes homogènes, c’est ce qu’on appelle : apprentissage
non supervisé à des fins descriptives,
Ou pour les associer à une variable de sortie : apprentissage supervisé à des fins prédictives7,
ce qui convient aux objectifs de notre étude. On distingue ainsi deux types d’apprentissages :
Apprentissage supervisé (Supervisé Learning) et Apprentissage non supervisé (Unsupervised
Learning). Dans l’apprentissage supervisé, le réseau s'adapte par comparaison entre le
résultat qu'il a calculé, en fonction des entrées fournies, et la réponse attendue en sortie. Le
système ajuste les données jusqu’à ce qu’il obtienne la bonne sortie. En ce qui concerne
l’apprentissage non supervisé, il est capable de découvrir la forme à partir des données
fournies vu que le réseau dans ce cas, doit chercher les ressemblances entre les informations
de la base de données, dans ce type d’apprentissage, les données d’entrées existent, mais il
n’y a aucune information sur la sortie désirée.
4.3 Algorithmes Génétiques
Il s’agit d’une méthode qui appartient à la famille des méthodes d’intelligence
artificielle, c’est un sujet qui intéresse bon nombre d’auteurs. En effet, F. Varetto (1998) et
D.K. Barney et al. (1999) étaient les premiers à développer les algorithmes génétiques dans le
cadre de la prédiction de la faillite. Ce modèle de prédiction façonné est donc très similaire à
20 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
la méthode des réseaux de neurones. Cette méthode permet de déduire une trajectoire du
cours de la faillite en se basant sur toute une série d’informations et de ratios comptables sur
les entreprises ayant connu la faillite ou non et grâce à une succession de récurrence. Dès lors,
cette trajectoire peut être reprise pour d’autres entreprises. Le but est de parvenir, suite aux
différentes récurrences, à des populations de solutions de plus en plus homogènes jusqu’à
atteindre le seuil d’homogénéité prédéfini (C. Refait, 2004). Il va observer leur qualité à travers
les taux de bons classements et enfin, il va maintenir les modes de résolution les plus efficaces
et potentiellement les combiner afin d’en obtenir de nouveau de façon aléatoire.
5 Les théories mobilisées dans le champ du risque de crédit
5.1 La théorie d’intermédiation financière
Dans le cadre de la théorie d’intermédiation financière, les banques jouent un rôle
primordial dans la création d’une connexion entre les agents économiques disposant d’une
capacité de financement et ceux ayant un besoin de financement. Cette théorie permet de se
renseigner sur les techniques utilisées par la banque et sur le fonctionnement du marché de
crédit bancaire. Selon R. Merton (1995) trois types d’intermédiation existent dans le contexte
de la relation Banque entreprise:
• L’intermédiation de la liquidité : ce type d’intermédiation postule que la
banque collecte des dépôts et, en contrepartie, distribue des crédits.
• L’intermédiation de l’information : face à l’existence d’une asymétrie
d’information entre l’entreprise propriétaire de projets et les financeurs
pouvant inciter l’entrepreneur à dissimuler ou à minimiser les gains réels
provenant du projet, la banque doit exercer un rôle de surveillance active
(monitoring) selon D. Diamond (1984). Cette action de monitoring
consistant à suivre régulièrement la valeur du projet peut dissuader
l’entreprise de sous-estimer les cash-flows.
• L’intermédiation du risque, selon laquelle, devant un risque,
l’établissement de crédit a le choix entre deux comportements : soit
l’acceptation de la gestion du risque à travers la diversification et
surveillance des clients emprunteurs, soit le transférer un tiers. Dans ce
contexte, la revue de littérature présente les différents chercheurs ayant
placé la problématique du risque de crédit dans la théorie de
l’intermédiation financière présentés dans le tableau ci-dessous.
Chercheurs Revue de littérature
J. Gurley et E. Shaw Ont souligné que le rôle d’intermédiation financière consiste à
(1960) produire de la liquidité à travers la transformation des actifs
financiers. Cette transformation constitue l’origine de risque du fait
que les établissements bancaires financent les emplois longs par des
ressources à plus courte durée.
21 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
R. Merton (1995) En tant qu’intermédiaire financier, la banque reçoit des dépôts en
contrepartie, elle les prête aux agents qui ont un besoin de
financement.
De Servigny et Ils définissent la banque comme un intermédiaire financier
Zelenko, (2003), p. monétaire, son activité réside dans l’intermédiation entre les agents
34 à excédent de ressources et les agents à déficit de financements.
Diamond (1984) Selon la théorie de l’intermédiation financière, la banque est
considérée comme un surveillant qui exerce une surveillance active
sur les crédits (monitoring).
(Leland et Pyle, 1977 Cette théorie de l’intermédiation financière permet d’analyser le
; Campbellet Kracaw, fonctionnement du marché de crédit bancaire et la politique de
1980). crédit adoptée par l’établissement bancaire.
Plihon (1998) Souligne que la prise de risque est primordiale pour la réalisation des
profits. La rémunération des risques représente des profits pour la
banque.
Ramakrishman et Dans la théorie de l’intermédiation financière, les banques sont
Thakor (1984) et représentées comme des institutions dépositaires disposent de la
Millon et Thakor capacité à offrir de la liquidité et améliorer des services de
(1985), surveillance.
Diamond et Dybvig L’offre de l’assurance et de la sécurité aux déposants est un
(2002), avantage qui attribue à la banque de la valeur. Grâce à la collecte
des dépôts, les banques peuvent assurer une meilleure distribution
de risque antre les actionnaires.
Tableau 1 : Revue de littérature sur la théorie d’intermédiation financière (Amal Ben Hassena
, 2006)
5.2 La théorie d’asymétrie d’information :
Le risque de crédit peut trouver une explication dans l’asymétrie informationnelle
existante entre des agents n’étant pas identiquement dotés d’un même niveau d’information.
En effet, l’asymétrie informationnelle peut conduire à une allocation inefficace du crédit et
donc à un important risque de crédit.
Le phénomène qualifié « d'asymétrie d'information » a fait l'objet d'études de plusieurs
auteurs à travers différentes théories permettant de comprendre le comportement des
banques dans le processus de financement.
Auteur Revue de littérature
Akerlof (1970), Le phénomène d'asymétrie d'information conduit à des
Diamand et Dybvig comportements opportunistes de la part de l'emprunteur.
(1975)
22 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Jaffée et Russel Ils distinguent dans leurs modèles les emprunteurs honnêtes et ceux
(1976) malhonnêtes. Ils assimilent les emprunteurs honnêtes aux
entreprises qui, estimant les coûts d'une éventuelle défaillance de
leurs projets élevés, décident de rembourser. Quant aux
emprunteurs malhonnêtes, ils préfèrent faire faillite en proposant
des taux d'intérêt plus élevés.
Calomiris et Montrent que les firmes ont plus d’information sur le niveau de
Hubbard, (1990) risque de leurs projets, elles sont dotées de plus d’informations sur
l’utilisation des fonds empruntées.
(Fraser et al, 2001) L’asymétrie d’information se manifeste lorsque les emprunteurs
doivent disposer de plus d’information sur leurs entreprises que les
bailleurs de fonds.
(Sylvie Cieply et Les banques ne disposent pas de toutes les caractéristiques des
Bernard Parañaque, projets des entreprises. En même temps, ces firmes n’ont aucune
1997) idée sur les stratégies envisagées par les banques par rapport à la
décision d’octroi des crédits.
Tableau 2 : Les principales études sur la théorie d’asymétrie d’information (NEZIEN, 2010)
6 Analyse comparative des techniques du crédit scoring :
De toutes ces techniques de scoring présentées précédemment, on peut assister à des
avantages et des limites propres à chaque méthode. Le tableau suivant présente les
différentes méthodes de scoring ainsi que leurs avantages et leurs inconvénients :
Technique de Avantages Inconvénients Règle classification
scoring
Variables explicatives
Des prédictions
continues et sans
explicites.
valeurs manquantes.
Un résultat analytique Sensible aux individus
direct. hors norme.
Analyse Score d'appartenance
Des calculs très
discriminante à une classe.
rapides Absence de tests
Ne nécessite pas un statistiques de
échantillon de grande significativités des
taille pour coefficients.
l'apprentissage.
23 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Tient compte des
variables qualitatives
(procédure DISQUAL)
Variables explicatives Les variables
discrètes, qualitatives explicatives doivent
ou continues. être non colinéaires
Calcul itératif plus long
Variables à expliquer qu'une analyse
ordinale ou nominale. discriminante de
Fisher.
Pas d'hypothèses de
multi normalités, ni La précision est
Probabilité que
d'homoscédasticités moindre que celle de
Régression logistique l'évènement de défaut
pour les variables l'analyse discriminante
se produise
explicatives.
Possibilité de prise en La régression
compte les logistique ne converge
interactions entre pas toujours vers une
variables. solution optimale.
Ne traite pas les
Résultats faciles à valeurs manquantes.
interpréter. Sensible aux valeurs
hors norme
Les résultats ne sont
Modéliser des
pas explicites et sont
relations non linéaires
difficile à comprendre
entre les données.
par les utilisateurs
Modéliser des
Le risque de Affecter
problèmes de
surapprentissage. l'appartenance des
Réseaux de neurones différents types.
individus aux classes
Ne traite pas un grand
définies
nombre de variables.
Résiste aux données La convergence vers la
défectueuses. meilleure solution
globale n'est pas
toujours garantie
Les résultats sont La détermination des
exprimés sous forme nœuds du niveau
de condition explicites (n+1) dépend
sur les variables fortement du nœud
Associer une
d'origine. précédent (n).
observation à
L'apprentissage d'un
Arbres de décision l'attribut attaché à la
Compréhensibilité des arbre de décision
feuille à laquelle il
résultats pour les nécessite un nombre
appartient.
utilisateurs. assez grand
d'individus.
Les variables Le score d'un individu
explicatives peuvent dépend de la feuille à
24 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
ne pas suivre des lois laquelle le conduisent
probabilistes les valeurs de ses
particulières prédicteurs.
Les arbres ne sont pas
affectés par les
individus hors norme.
Traite les données
manquantes.
Tous types de
variables : continues,
discrètes et
qualitatives.
Simple à utiliser.
Tableau 3 : Tableau récapitulatif des techniques de scoring (Source : Adapté de Tufféry, 2012)
Le pouvoir discriminant du modèle de scoring et sa capacité de mesurer la détresse financière
des emprunteurs représentent des critères déterminants dans la performance et la qualité du
modèle de scoring.
6.1 - Démarche pratique de la construction des fonctions scores :
La construction d’une fonction score repose sur trois principales étapes : la constitution de
l’échantillon initial, la sélection des variables discriminantes et l’analyse statistique proprement dite.
Pour la première étape, dans le monde bancaire, il convient de disposer de deux populations
d’emprunteurs. La première regroupe les entreprises qui ont fait défaut, et la seconde les entreprises
qui n’ont pas fait défaut. Il faut signaler ici que le défaut de paiement est un événement qui peut
prendre de multiples formes et dont l’appréciation comporte une part de subjectivité3 . Une fois le
critère de défaut est déterminé, il convient de disposer des données historiques sur ces défauts et de
constituer un échantillon composé d’un nombre suffisant d’emprunteurs en situation de défaut
(défaillant) et autre d’emprunteurs sains. Il faut signaler également l’horizon du modèle. Cet horizon
peut être par exemple une année si l’on utilise l’information de l’année précédente N-1 pour prévoir
les défaillances de l’année encours N. L’horizon est de deux ans si les informations utilisées sont celles
de l’année N-2. La deuxième étape concerne les variables que l’on va utiliser, il s’agit principalement
de savoir quelle est la batterie de variables ou ratios qui vont être utilisés pour la classification et la
séparation entre les deux groupes. Il convient de signaler que l’une des conditions requises pour la
construction d’une fonction score est que les variables retenues ne soient pas corrélées. Des variables
liées apportent en réalité la même information et sont redondantes. La troisième étape est purement
statistique, elle consiste, sur la base des échantillons et de l’ensemble des variables retenues, à
élaborer la règle de décision d’affectation qui soit la plus efficace possible. Dans cette étape, il faut
choisir une technique statistique de discrimination. Les techniques de scoring les plus utilisées dans le
secteur bancaire sont construites par des méthodes linéaires pour leur simplicité et leur grande
robustesse. Les méthodes les plus utilisées sont l’analyse discriminante et la régression logistique. La
fonction identifiée sera mise par la suite à l’appréciation de sa qualité prédictive. Ces trois étapes
seront respectées dans l’étude empirique que nous allons mener dans cette recherche.
25 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
6.2 Méthodologie de recherche :
Cette étude est réalisée sur la base des données recueillies auprès des entreprises clientes de la
banque populaire de Rabat-Kenitra (2.1). Ces données sont traitées et analysées par une méthode
statistique appelée « l’analyse discriminante » (2.2).
6.2.1 - Construction de la base des données
Constitution de l’échantillon
Nous avons constitué notre base des données sur la base d’un échantillon de 46 sociétés choisies
selon la technique du tirage aléatoire, ces entreprises opèrent essentiellement dans la région de Rabat-
Salé. Notre échantillon se compose de deux sous-ensembles : 23 entreprises jugées comme
défaillantes4 et 23 saines. Le tableau ci-après résume les principales caractéristiques de notre
échantillon.
Principales caractéristiques Entreprises saines Entreprises défaillantes
Secteurs d’activité
Entreprises industrielles 10 08
Entreprises commerciales 13 15
Formes juridiques
SA 11 09
SARL 12 14
Tableau : Caractéristiques principales de l’échantillon
Concernant la taille, notre échantillon (les deux sous-groupes) se compose exclusivement par des
PME. Ce choix se justifie par trois causes. Premièrement, les PME sont généralement sous capitalisées.
Deuxièmement, l’endettement des PME est principalement bancaire car elles n’ont pas un accès facile
aux financements directs et elles sont les plus vulnérables que les autres et troisièmement, elles ont
une probabilité de défaillance nettement plus importante que les grandes entreprises.
2.1.2- Choix des ratios :
Devant l’insuffisance ou l’inexistence des informations d’ordre qualitatif (stratégique et/ou
organisationnel) dans les dossiers des sociétés retenues dans l’échantillon, nous n’avons retenu que
les informations comptables et financières sous forme des ratios. Pour faire des rapprochements et de
porter des jugements sur les aspects essentiels de la vie des sociétés choisies, on a distingué trois
grandes catégories de ratios : ratios de structure6, d’activité7 et de rentabilité8. Le tableau n° 3 ci-
dessous résume les ratios retenus dans cette recherche.
Aspect Ratio Intitulé Formule
Ratios de structure R1 Ratio d’autonomie financière Capitaux propres/
capitaux permanents
R2 Ratio de trésorerie immédiate Disponibilité/ dettes à
court terme
R3 Ratio d’équilibre financier Capitaux permanents/
actif immobilisé net
Ratios d’activité R4 Part des frais financiers dans la valeur Charges
ajoutée financières//valeur
ajoutée
R5 Ratio crédit fournisseurs en mois (Dettes fournisseurs/
achats TTC+ autres
charges externes
TTT)*12
26 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
R6 Ratio crédit clients en mois (Créances clients/CA
TTC)*12
Ratio de rentabilité R7 Rentabilité financière Résultat net de
l’exercice/ capitaux
propres
Tableau : Ratios retenus
Il faut signaler que les ratios sont calculés une année avant (N-1) la survenance de la défaillance. Une
fois la base des données est construite, il convient de choisir la technique appropriée pour discriminer
et opposer les deux groupes.
2.2- L’analyse discriminante : méthode de l’analyse des données recueillies
Dans cette recherche, nous avons retenu l’analyse discriminante de Fisher pour avoir une
combinaison linéaire optimale des meilleures variables permettant de distinguer les entreprises
risquées des entreprises viables. Ce choix se justifie par le fait que, selon plusieurs auteurs, notamment
Bardos et Zhu (1997), cette méthode présente des avantages en termes de robustesses aux
fluctuations conjoncturelles et de maintenance. Comme son nom l’indique, l’analyse discriminante a
pour but de discriminer, d’opposer et de différencier. C’est une méthode statistique
multidimensionnelle qui a pour objectif d’expliquer un caractère qualitatif (appartenance ou non à un
groupe d’individus) par l’intermédiaire de variables quantitatives explicatives décrivant les individus.
C’est une méthode utilisée notamment par les banques pour le scoring. Les objectifs de l’analyse
discriminante sont différents. Selon Romeder (1973), l’analyse discriminante vise à résoudre deux
catégories de problèmes :
Comment peut-on séparer deux groupes d’individus grâce à l’utilisation des critères mesurés
sur ces individus ? Dans notre cas, faire la séparation entre les entreprises défaillantes et celles saines
par le biais d’un ensemble de ratios comptables et financiers (c’est l’analyse discriminante à but
descriptif) ;
Comment peut-on réaffecter ces individus à leurs groupes ? et comment peut-on identifier la classe
d’un nouvel individu avec la seule connaissance de la valeur des critères retenus ? (C’est l’analyse
discriminante à but décisionnel). Dans cette recherche, notre objectif est double : descriptif et
décisionnel, les deux approches de l’analyse discriminante seront donc sollicitées.
2- Résultats et discussion :
Avant de présenter nos principaux résultats relatifs à la fonction score et la validation de sa
capacité prédictive (3.2), il nous parait essentiel de mener une étude portant sur les ratios et leur
capacité de discrimination (3.1).
3.1 : Statistiques élémentaires relatives aux ratios
3.1.1. Etude la diversité des valeurs prises par les ratios
Le tableau ci-dessous présente les principales statistiques descriptives des ratios retenus dans cette
recherche.
Ratios Valeur Valeur Moyenne Ecart-type
minimale maximale
R1 0,42 1,00 0,8548 0,1792
R2 0,00 0,54 0,1087 8,735E-02
R3 0,45 12,91 2,3952 2,4691
R4 0,01 0,44 0,1422 0,1092
27 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
R5 0,12 3,29 1,5730 0,8807
R6 0,01 2,84 0,9052 0,7916
R7 0,00 0,21 7,217E-02 5,325E-02
Tableau : Les principales statistiques descriptives des ratios
Ce tableau montre que les valeurs prises par les sept ratios retenus sont dispersées. Elles différent
fortement d’une entreprise à une autre. Ces valeurs s’étalent sur un intervalle de 0,58 points (de 0,42
à 1) pour R1 (ration d’autonomie financière); de 0,54 points pour R2 (ratio de trésorerie immédiate);
de 12,46 points pour R3 (ration d’équilibre financier); de 0,43 points pour R4 (la part des frais financiers
dans la VA); de 3,17 points pour R5 (délai crédit fournisseurs en mois) ; de 2,83 points pour R6 (délai
crédit clients en mois) et de 0,21 points pour R1 (la rentabilité financière). Cette diversité peut
expliquer le phénomène de la défaillance, c'est-à-dire que la diversité de ces ratios peut classer les
entreprises en « entreprises défaillantes » / « entreprises saines », d’où la nécessité de tester leurs
capacités de discrimination.
3.1.1: Etude de la capacité discriminante des ratios :
Pour avoir une idée préliminaire sur le pouvoir de discrimination de chaque ratio, nous utilisons le test
de différence de moyennes de student relatives à chaque ratio entre les entreprises défaillantes et les
entreprises saines. Les résultats de ce test se résument ainsi :
Ratios Entreprise Entreprises Ecart Test-t Signification
saines défaillantes
Ratio 1 0,9617 0,7478 0,2139 5,019 0,000*
Ratio 2 0,1396 7,783E-02 6,174E-02 2,538 0,015**
Ratio 3 3,5343 1,2561 2,2783 3,498 0,001*
Ratio 4 0,1813 0,1030 0,0783 2,579 0,013**
Ratio 5 1,9548 1,1913 0,7635 3,234 0,002*
Ratio 6 0,4383 1,3722 -0,9339 -4,928 0,000*
Ratio 7 8,913E-02 5,522E-02 3,391E-02 2,256 0,029**
Tableau: Moyennes comparées des ratios retenus (* significatif au seuil de 1% ** significatif au seuil
de 5%)
Les premiers résultats de notre étude (tableau ci dessus) montrent que la moyenne relative au ratio 1
(ratio d’indépendance financière) est plus élevée chez les entreprises saines (0,96) que chez les
entreprises défaillantes (0,75). La différence entre ces deux moyennes est positive (+0,21) et
statistiquement significative. Ce ratio est discriminant selon le test de student. Cette situation
s’applique également pour les ratios R2 (Ratio de trésorerie immédiate), R3 (ratio de l’équilibre
financier), R5 (ratio fournisseurs) et R7 (Rentabilité financière). Par contre, la moyenne relative au ratio
6 (ratio clients) est plus élevée chez les défaillantes (1,37) que chez les saines (0,44). Le délai client est
plus long chez les défaillantes que chez les entreprises saines. Or, ces remarques élémentaires ne nous
permettent pas de trancher définitivement sur les variables les plus discriminantes. Pour ce faire, nous
attendons les verdicts de l’analyse discriminante. 3.2 : Résultats de l’analyse discriminante 3.2.1.
Présentation de la fonction score L’utilisateur aura le choix entre la fonction discriminante (une seule
fonction) et les fonctions de classement (dans notre cas : deux fonctions). Le traitement de notre base
des données par le biais du logiciel SPSS10 nous a permis d’identifier la fonction score suivante :
FONCTION 1
Ratio 1 2,071
Ratio 2 -0,036
Ratio 3 0,070
Ratio 4 1,662
28 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Ratio 5 0,706
Ratio 6 -1,219
Ratio 7 8,224
Constant -2,772
Tableau : fonction score identifiée (extraite de SPSS)
Donc notre fonction score peut s’écrire ainsi :
Z=2,071 R1-0,036 R2+0,070 R3+1,662 R4+0,706 R5-1,219 R6+8,224 R7-2,772
L’affectation aux groupes se fera en fonction des centroides de ces derniers, c'est-à-dire par
comparaison avec un score discriminant « moyen » pour chaque groupe. Ce score moyen est calculé à
partir de la fonction discriminante, où l’on remplace les valeurs individuelles par les moyens des
variables indépendantes pour le groupe dont on s’occupe. Les scores discriminants moyens pour les
deux groupes sont donnés ainsi :
Fonction 1
Appartenance Scores moyens
0 (entreprises défaillantes) -1,343
1 (entreprises saines) +1,343
Tableau: fonctions aux barycentres des groupes (extrait de SPSS)
Chaque score individuel discriminant individuel est ensuite comparé aux deux scores moyens
et affecté au groupe doit-il est le plus proche. Mais la question qui se pose est la suivante: à partir de
quel score peut-on affecter les individus au groupe 1 (entreprises saines) et non pas au groupe 0
(entreprises défaillantes) ? Pour ce faire, on doit déterminer un score qui joue le rôle de frontière entre
les groupes. Si les groupes sont de dimensions égales, le score critique est égal à la moyenne des
moyennes des scores des groupes. Dans notre cas, ce score est égal 1,343+1,343/2=0.
Donc le score frontière=0
Cette situation nous emmène à constater que chaque entreprise peut se classer selon la règle
de décision suivante :
Valeur du score Affectation selon notre modèle
Z≥0 (score positif) Saine
Z<0 (score négatif) Défaillante
Tableau: règle de décision (extrait de SPSS)
Mais, il convient de signaler qu’il y a une zone d’incertitude qui se situe entre les deux centres
de gravité des deux groupes (-1,343 et +1,343). Cette zone ne permet pas de trancher définitivement
sur la défaillance ou non des entreprises, ce sont les dossiers tangents. Concernant les fonctions de
classement, le tableau n°9 ci-après donne les coefficients de ces deux fonctions fournis par le
traitement statistique. Ces coefficients permettent de classer les entreprises dans les classes.
Appartenance
Ratios 0(entreprises
1(entreprises saines)
défaillantes)
Ratio 1 42,085 47,649
Ratio 2 -3,028 -3,125
Ratio 3 0,400 0,588
Ratio 4 -7,797 -3,331
29 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Ratio 5 -2,726 -0,830
Ratio 6 3,805 0,531
Ratio 7 10,495 32,589
Constant -17,437 -24,884
Tableau : Coefficients des fonctions de classement (extraits de SPSS)
Et donc les fonctions de classement peuvent s’écrire comme suit :
Z défaillantes= 42,085 R1- 3,028 R2+ 0,400 R3- 7,797 R4- 2,726 R5+ 3,805 R6 + 10,495 R7- 17,437. Z
saines= 47,649 R1 – 3,125 R2 + 0,588 R3 – 3,331 R4 – 0,830 R5 + 0,531 R6 + 32,589 R7 – 24,884.
Chaque entreprise est classée selon le score obtenu ; elle est affectée au groupe dans lequel
elle obtient le plus grand score.
3.2.2- Tests du modèle élaboré :
Généralement, on teste la capacité prédictive de la fonction score soit par des tests
statistiques faisant appel à des hypothèses probabilistes, soit par un test pragmatique par le biais de
la matrice de confusion. Concernant les premiers tests, nous utilisons la corrélation canonique (tableau
X) et Lambda de Wilks10 (tableau Y).
FONCTION VALEUR % DE LA % CUMULE CORRELATION
PROPORE VARIANCE CANONIQUE
1 1.886 100.0 100.0 0.808
Tableau X: Corrélation canonique et valeurs propres (extrait de SPSS)
TEST DE LA/ LES LAMBDA DE KHI-DEUX DDL SIGNIFICATION
FONCTIONS WILKS
1 0.346 42.929 7 0.000
Tableau Y: Test de Lambda de Wilks (extrait de SPSS)
Plus la corrélation canonique est proche de 1, meilleur est le modèle. Dans notre cas, la
corrélation canonique est égale à 80,80%. Ce résultat est très encourageant parce que cette valeur
confirme un pouvoir discriminant assez important de la fonction discriminante extraite. Egalement, la
valeur de Lambda de Wilks étant faible, et est égale à 0,346, et donc plus proche de 0 que de 1, avec
un khi-deux ayant un degré de signification nul. Cela veut dire qu’au niveau global, la différence des
moyennes des groupes est significative. Pour s’assurer que la fonction discriminante classifie bien les
entreprises en sous-groupes, on analyse la matrice de confusion qui regroupe les entreprises bien
classées et les mal classées. C’est le moyen le plus utilisé est aussi le plus « parlant ». La matrice de
confusion de notre fonction score se présente comme suit :
CLASSE(S) D’AFFECTATION
APPARTENANCE PREVUE (S) Total
0 1
0 19 04 23
EFFECTIF
1 03 20 23
ORIGINALE
0 82.6 17.4 100
%
1 13.0 87.0 100
Tableau : Matrice de confusion
30 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Cette matrice fait ressortir que la fonction score extraite ci-dessus permet de classer un an
avant l’occurrence de la défaillance 84,78% (19+20/46) des entreprises correctement. Ce taux peut se
décortiquer ainsi :
Le pourcentage des bien classées pour les entreprises saines est égal à 20/23=87% ;
Le pourcentage des bien classées pour les entreprises défaillantes est égal à 19/23= 82,6%.
Par contre, le taux d’erreurs (entreprises mal classées) est égal seulement (7/46) 15,21%. Toutefois,
on distingue pour ce taux entre:
L’erreur du premier type (classer une entreprise défaillante par l’utilisation de la fonction
score parmi les entreprises saines) : ce taux est égal à 4/23=17,4% ;
et l’erreur du second type (classer une entreprise saine comme une entreprise défaillante
par le modèle): ce taux est égal à 3/23=13%.
Cependant, le pourcentage d’entreprises correctement reclassées ne doit pas être analysé
dans l’absolu. Il doit être comparé au pourcentage que l’on obtiendrait si l’on reclassait les entreprises
au hasard. Pour ce faire, un test Q de Presses (Hair et al., 1992 ; cité par Giannelloni et Vernette, 2001,
p.420) sera mené. Ce test vérifie que le pourcentage d’entreprises correctement classées est
significativement plus important que celui donné par un choix aléatoire. La statistique calculée suit
une loi de Khi-deux (χ2) à 1 degré de liberté. L’hypothèse nulle est l’égalité des deux valeurs, c'est-à-
dire le nombre d’individus bien classés au hasard et le nombre d’individus classés par la fonction
discriminante. L’expression de ce test est la suivante :
Avec:
n: le nombre des entreprises de l’échantillon;
nc : le nombre des entreprises correctement classées ;
p : le nombre de groupes.
Dans notre cas : Q presse=[46-(39×2)]2 /46× (2-1) = 22,26 La valeur critique du χ2 à 1 degré de
liberté est égale à 3,84, l’hypothèse nulle doit être rejetée. La fonction discriminante est donc
significativement plus performante que le hasard pour reclasser correctement les entreprises.
Conclusion et interprétations :
La maîtrise du risque de crédit demeure une préoccupation majeure et un objectif recherché
pour les banques qui ont pour but la détention des modèles de scoring efficaces capables de classer
les firmes dans des classes de risques afin de distinguer entre les bons et les mauvais emprunteurs. En
effet, la mise en place de ces techniques permet d’obtenir et d’une manière rapide et efficace les
31 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
risques potentiels sur chaque ligne de crédit. En outre, ces modèles de scoring nécessitent la présence
des informations historiques sur l’emprunteur, ces informations représentent un ensemble de
caractéristiques permettant de prévoir si celui-ci aura une solvabilité future. Dans notre étude, nous
avons analysé les différentes techniques de prédiction du risque de crédit, particulièrement leurs
caractéristiques, leur fonctionnement, leurs avantages et leurs limites. En effet, en plus des méthodes
traditionnelles du crédit scoring (comme la régression logistique et l’analyse discriminante), on trouve
les techniques intelligentes (comme les réseaux de neurones et les arbres de décision, systèmes
experts), récemment utilisées dans plusieurs domaines comme la médecine, le marketing, etc…, ils ont
aussi démontré leurs capacités d’évaluer le risque de crédit des emprunteurs. Il serait donc intéressant
de reprendre cette étude en utilisant un échantillon des entreprises saines et défaillantes et appliquer
deux techniques de crédit scoring une traditionnelle et une autre appartenant aux techniques
d’intelligence artificielle et ainsi comparer les résultats obtenus.
Limites de la recherche :
Il est primordial de signaler que ce travail nous a permis d’élaborer, d’une manière pratique,
une fonction score. Cependant son utilisation doit se faire avec beaucoup de précautions pour
plusieurs raisons. Premièrement, la mesure de son efficacité s’est limitée seulement à l’échantillon
initial, c'est-à-dire l’échantillon qui nous a servi à estimer les coefficients de cette fonction
discriminante. Ce type de validation conduit très souvent à des résultats trop optimistes.
Deuxièmement, la non intégration des données qualitatives constitue un obstacle devant le fait de
compléter l’analyse financière du risque crédit par une autre économique intégrant notamment des
variables de positionnement de l’entreprise sur son marché, de maîtrise des coûts de revient ou
d’appréciation de la qualité de gestion de l’entreprise, etc. et troisièmement, les limites portant sur
l’analyse discriminante et notamment celles qui concernent les conditions théoriques pour son
utilisation. Mais, et en pratique, les variables utilisées dans les études suivent rarement des lois
probabilistes connues. Les conditions théoriques d’application des modèles sont donc rarement
réunies (Bardos, 2001).
32 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Bibliographie :
(1) Abdeljelil Farhat, Sami Mestiri, 2008. « Détection de la défaillance des entreprises
Tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones. ». P :19
(2) AKERLOF G., 1970, "The Market for "Lemons": Quality, Uncertainty and the Market
Mechanism ", Quaterly Journal of Economics, vol.84 n°3, August.
(3) ALTMAN E.I. [1968], “Financial ratios, discriminant analysis and the prediction of corporate
bankruptcy”, in Journal of Finance, vol. 23, p. 589609.
(4) Altman, E. I., Marco, G., Varetteo, F. (1994), Corporate Distress Diagnosis: Comparisons
Using Linear Discriminant Analysis and Neural Network – The Italian Experience, Journal of Banking
and Finance, vol. 18, n° 3, pp. 505-529.
(5) Amal Ben Hassena, 2006 « L'impact de la libéralisation financière sur l'intermédiation
bancaire » Université de Sfax : Ecole Supérieure de Commerce de Sfax - Diplôme de maîtrise en Hautes
Etudes commerciales 2006
(6) Anandarajan, Lee et Anandarajan, (2001) Bankruptcy prediction of financially stressed
firms: An examination of the predictive accuracy of artificial neural networks June 2001 Intelligent
Systems in Accounting Finance & Management 10(2) :69-81
(7) Aomar Ibourk & Abdelkrim Aazzab, 2016 « Modélisation Des Défaillances D’entreprises Au
Maroc : Une Étude Économétrique ». Publié dans Global Journal of Management and Business
Research: B Economics and Commerce.
(8) Anaclet Ananga Onana, Joseph Bikay Bi Batoum et Robert Wanda, 2013 « Les déterminants
de la compétitivité des franchises internationales : une analyse empirique du cas du Cameroun » Dans
Revue Congolaise de Gestion 2013/2 (Numéro 18), pages 9 à 44
(9) Anderson, R. (2007). “The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk
Management and Decision Automation”. New York: Oxford University Press.
(10)Aubier, M. (2007), « Impact de Bâle II sur l'offre de crédit aux PME. », Economie & prévision
2/2007 (n° 178-179), p. 141-148. Pour plus de détail consulter : URL: [Link]/revue-economie-
et-prevision.
(11)BANQUE DE FRANCE (2010), « Crise financière : origines et dynamiques », Documents et
Débats, Chapitre 1, n° 3, janvier, p. 9.
(12) Bardos M. (1998), Detecting the risk of company failure at the Banque of France, Journal
of Banking and Finance, 22, 1405-1419.
(13) Bardos M., Zhu W.H. (1997), Comparaison de l'analyse discriminante linéaire et des
réseaux neuronaux : application à la détection de défaillance d'entreprises, Revue Statistique
Appliquée, XLV (4), 65-92.
(14) BARDOS Mireille, 2008, « Scoring sur données d’entreprises : instrument de diagnostic
individuel et outil d’analyse de portefeuille d’une clientèle », Revue MODULAD, N°38.
33 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
(15) BEAVER, W. H. (1966), «Financial Ratios as Predictors of Failure », Empirical Research in
Accounting, Selected Studies, Journal of Accounting Research, Supplement, vol. 4, pp. 71-111.
(16) Benoit Crabbé, (2011) « Notions de modélisation statistique : Predicting the Dative
Alternation »
(17) Berg Eugène. Antony Sampson, 1982, « Les banquiers dans un monde dangereux ». In:
Politique étrangère, n°4 - 1982 - 47ᵉannée. p. 1051.
(18) Bonfim, D., (2009), «Credit Risk Drivers: Evaluating the Contribution of Firm Level
Information and Macroeconomic Dynamics», Journal of Banking and Finance, Vol. 33, No. 2.
(19) Boubacar Diallo, 2006 « Un modèle de crédit scoring pour une institution de micro finance
Africaine : Le cas de NYESIGISO AU MALI ». HAL Id : halshs-00069163. P : 4
(20) Catherine Refait-Alexandre, 2004 « La prévision de la faillite fondée sur l'analyse financière
de l'entreprise : un état des lieux Dans Économie & prévision 2004/1 (no 162), pages 129 à 147
(21) Catherine Refait-Alexandre, 2004 « La prévision de la faillite fondée sur l'analyse financière
de l'entreprise : un état des lieux Dans Économie & prévision 2004/1 (no 162), pages 129 à 147.
(22) Cécile Kharoubi, Philippe Thomas : « Gestion de risque de crédit : Banque & marché »,
Edition 2016
(23) Charalambous C, Charitou A et Kaourou F. (2000), Comparative analysis of artificial neural
network models: application in bankruptcy prediction, Annals of operations research, Octobre,
university of Cyprus.
(24) Cristián Bravo, Thomas, Lyn C, Richard Weber, (2017 ) Improving credit scoring by
differentiating defaulter behaviour, University of Southampton Highfield Southampton UK &Richard
Weber Pages 771-781 Journal of the Operational Research Society. Volume 66, 2015 - Issue 5
(25) Desjardins Julie (2015) L'analyse de régression logistique September 2005 Tutorials in
Quantitative Methods for Psychology 1(1) DOI: 10.20982/tqmp.01.1.p035
(26) Douglas W. Diamond, (1984) Financial Intermediation and Delegated Monitoring. The
Review of Economic Studies. Vol. 51, No. 3 (Jul.,1984), pp. 393-414 (22 pages)
(27) Fred Ntoutoume Obiang-Ndong, 2007 « Scoring du risque de crédit des PME par la
modélisation statistique et l'intelligence artificielle chez l'UMECUDEFS: une application comparative
de la régression logistique et des réseaux de neurones ». Mémoire de fin d'études, Université Cheikh
Anta Diop - Faculté Des Sciences Economiques Et De Gestion.
(28)Gilbert Saporta (2015) Classification supervisée et credit scoring Conservatoire National
des Arts et Métiers, Paris.
(29) Hand, D.J. and Henley, W.E. (1997) Statistical Classification Methods in Consumer Credit
Scoring: A Review. Journal of Royal Statistical Society, 160, 523-541.
(30) Jantzen. J (1998), “Introduction to perceptron Networks “, report no 98-H 873 (nnet), 25
Oct, Denmark, page27.
(31) Julie DESJARDINS, « L’analyse de la régression logistique », Université de Montréal,
Tutorial in Quantitative Methods for Psychology, 2005, Vol. 1(1), p. 35-41.
34 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
(32) M. BARDOS W. H. ZHU (1997), Comparaison de l’analyse discriminante linéaire et des
réseaux de neurones. Application à la detection de défaillance d’entreprises “Revue de statistique
appliquée, tome 45, no 4 (1997), p. 65-92”.
(33)R. Anderson (2007) The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk
Management and Decision Automation Illustrated Edition.
(34) Rim BOUSSAADA, 2012 « L’impact de la gouvernance bancaire et de la relation bancaire
sur le risque de crédit: cas des banques tunisiennes ». Thèse de doctorat en sciences économiques,
Université Montesquieu - bordeaux iv, université de Tunis institut supérieur de gestion de Tunis.
(35) Stéphane Tufféry, « Data Mining et Statistique décisionnelle, l'intelligence des données »,
Editions Technip (2e Ed), 2007, p.25.
(36) Théophile Fabrice NEZIEN, 2010 « Problématique du financement des PME par les
établissements bancaires : cas de Coris bank ». Mémoire pour l'obtention du diplôme de Maîtrise en
Economie et Gestion des Entreprises et des Organisations (EGEO)- Université Saint Thomas d'Aquin.
(37) Thuillier. D (1997), « Principe et applications des réseaux de neurones –deux illustration sur
l’habitat au Maroc »; revue région et développement n°=5-, page3
(38) (Varetto, 1998; Barney et al., 1999, Shin et Lee, 2002; Chen et Du, 2009; Ravisankar et Ravi,
2010), les techniques de support vector machine. Yang Liu, (2001), New Issues in Credit Scoring
Application, Work report N°16, Institut fûr Wirtschaftsinformatik, 2001.
35 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
Tables des matières :
Remerciements........................................................................................................................... 2
Liste des figures .................................................................................................................................. 3
Introduction générale ......................................................................................................................... 4
Partie I: Fondements théoriques et conceptuels ................................................................................. 5
Chapitre I : Le data mining : (définition, historique, concept) :............................................................. 5
1-1 Qu’est-ce que le data Mining ..................................................................................... 5
1-2 Origine du concept .................................................................................................... 5
1-3 Concept du data mining ............................................................................................. 5
Chapitre 2 : Techniques prédictives du data mining ............................................................................ 7
2.1. Techniques prédictives/supervisées .................................................................................... 7
Les modéles classification…………………………………………………………………………………………………….7
Les modéles d’estimation…………………………………………………………………………………………………….7
Règles de décision……………………………………………………………………………………………..…………………8
Régression……………………………………………………………………………………………………………..……………8
Réseaux de neurone……………………………………………………………………………………………………………8
Machines à vecteurs supports……………………………………………………………………………………………9
Réseaux bayésiens………………………………………………………………………………………………………...……9
Chapitre 2 : Etude de cas : Prédiction du risque de crédit : étude comparative des techniques de
Scoring……………………………………………………………………………………………………………….…………………...10
Section 1 : Gestion du risque crédit par le diagnostic financier classique, ses limites et ses
conséquences…………………………………………………………………………………………………………………………10
1. Présentation du diagnostic financier classique et son rôle dans la gestion du risque crédit.10
Section 2 : La méthode du scoring : outil privilégié de la gestion du risque crédit ……………………11
1 - La méthode du scoring : outil privilégié de la gestion du risque crédit Conclusion
générale..11
1.1 Définition et avantages du crédit scoring……………………………………………….................................11
1.2 Revue littéraire………………………..…………………………………………………………………………….……….......13
2. Processus de construction d’un modèle scoring………………………………………………………………14
2.1. La détermination du critère de défaillance……………………………………………………………………14
2.2 Le choix des variables explicatives …………………………………………………………………………………14
36 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE
2.3 Le choix de la technique à utiliser…………………………………………………………………………………15
3. Les méthodes de prédiction du risque de crédit ……………………………………………………15
3.1 Analyse financière………………………………………………………………………………………………………15
3.2 Analyse Discriminante multivariée………………………………………………………………..……………15
3.3 Régression logistique………………………………………………………………………………………….………16
4. Les techniques intelligentes ……………………………………………………………………………………18
4.1 Les Systèmes experts : ……………………………………………………………………………………….18
4.2 Les réseaux de neurones artificiels …………………………………………………………..……18
4.3 Algorithmes génétiques………………………………………………………………………………….20
5. Les théories mobilisées dans le champ du risque de crédit …………………………………21
5.1 La théorie d’intermédiation financière…………………………………………………………………………..21
5.2 La théorie d’asymétrie d’information : ………………………………………………………………………….22
6. Analyse comparative des techniques du crédit scoring …………………………...………….23
6.1 - Démarche pratique de la construction des fonctions scores………………………………………….25
6.2 – Méthodologie de recherche…………………………………………………………………………………………25
Bibliographie……………………………………………………………………………………………………..………………………33
Tableau de matière…………………………………………………………………………………………………………………..…36
37 LES TECHNIQUE PREDICTIVES DU DATA MINING DANS LE SECTEUR ECONOMIQUE