0% ont trouvé ce document utile (0 vote)
39 vues19 pages

Datamining Cours 01

Le datamining, ou exploration de données, consiste à extraire des connaissances à partir de grandes quantités de données en utilisant des algorithmes issus de diverses disciplines. Il est appliqué dans de nombreux domaines, tels que la gestion de la relation client, la détection de fraudes et l'optimisation de services. Cependant, des défis techniques et éthiques subsistent, notamment en matière de qualité des données et de protection de la vie privée.

Transféré par

amel.mouchaouche09
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
39 vues19 pages

Datamining Cours 01

Le datamining, ou exploration de données, consiste à extraire des connaissances à partir de grandes quantités de données en utilisant des algorithmes issus de diverses disciplines. Il est appliqué dans de nombreux domaines, tels que la gestion de la relation client, la détection de fraudes et l'optimisation de services. Cependant, des défis techniques et éthiques subsistent, notamment en matière de qualité des données et de protection de la vie privée.

Transféré par

amel.mouchaouche09
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Datamining

Cours n° 1
Introduction

11/01/2021 3IL I2 - Datamining 1


Définition

• L’exploration de données, connue aussi sous l'expression de fouille de données, forage de


données, prospection de données, datamining, ou encore extraction de connaissances à
partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de
grandes quantités de données, par des méthodes automatiques ou semi-automatiques.
• Elle se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques diverses
telles que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des
modèles à partir des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon
des critères fixés au préalable, et d'en extraire un maximum de connaissances.
• Source : Wikipédia

11/01/2021 3IL I2 - Datamining 2


Cadre d’utilisation du datamining

• L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de


résoudre des problèmes très divers, allant de la gestion de la relation client à la maintenance
préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web.
• C'est aussi le mode de travail du journalisme de données.
• L'exploration de données fait suite, dans l'escalade de l'exploitation des données de l'entreprise, à
l'informatique décisionnelle.
• La BI permet de constater un fait, tel que le chiffre d'affaires, et de l'expliquer comme le chiffre
d'affaires décliné par produits, tandis que l'exploration de données permet de classer les
faits et de les prévoir dans une certaine mesure ou encore de les éclairer en révélant par
exemple les variables ou paramètres qui pourraient faire comprendre pourquoi le chiffre
d'affaires de tel point de vente est supérieur à celui de tel autre.

11/01/2021 3IL I2 - Datamining 3


Les progrès de la théorie au cours de l’histoire
• En 1763, Thomas Bayes montre qu'on peut déterminer, non seulement des probabilités à partir des observations
issues d’une expérience, mais aussi les paramètres relatifs à ces probabilités. Ce résultat est étendu indépendamment
par Laplace, conduisant à une formulation générale du théorème de Bayes..
• De 1919 à 1925, Ronald Fisher met au point l'analyse de la variance comme outil pour son projet d'inférence
statistique médicale.
• Les années 1950 voient l'apparition de calculateurs encore onéreux et des techniques de calcul par lots sur ces
machines. Simultanément, des méthodes et des techniques voient le jour telles que la segmentation, classification ,
une première version des futurs réseaux de neurones qui se nomme le Perceptron, et quelques algorithmes auto-
évolutifs qui se nommeront plus tard génétiques.
• Dans les années 1960 arrivent les arbres de décision et la méthode des centres mobiles (ces techniques
permettent aux chercheurs d'exploiter et de découvrir des modèles de plus en plus précis) ainsi que l'analyse des
correspondances .
• En 1969 paraît l'ouvrage de Myron Tribus qui généralise les méthodes bayésiennes dans le cadre du calcul
automatique. Une idée importante de l'ouvrage est la mention du théorème de Cox-Jaynes démontrant que toute
acquisition d'un modèle soit se fait selon les règles de Bayes, soit conduit à des incohérences. Une autre est que
parmi toutes les distributions de probabilité satisfaisant aux observations, il faut choisir celle qui contient le moins
d'arbitraire (celle d'entropie maximale ).

11/01/2021 3IL I2 - Datamining 4


Les bénéfices de la puissance informatique
• L'arrivée progressive des micro-ordinateurs permet de généraliser facilement les méthodes bayésiennes sans grever
les coûts.
• Les analyses bayésiennes se généralisent. Myron Tribus a démontré leur convergence, au fur et à mesure des
observations, vers les résultats des statistiques classiques tout en permettant d'affiner les connaissances au fil de
l'eau sans nécessiter les mêmes délais d'acquisition.
• L'affranchissement du protocole statistique classique commence alors : il n'est plus nécessaire de se fixer une
hypothèse et de la vérifier ou non a posteriori. Au contraire, les estimations bayésiennes vont construire elles-mêmes
ces hypothèses au fur et à mesure que s'accumulent les observations.
• L'expression « datamining » avait une connotation péjorative au début des années 1960, exprimant le mépris des
statisticiens pour les démarches de recherche de corrélation sans hypothèses de départ. Le concept d'exploration de
données fait son apparition vers 1989. Le terme « datamining » étant sous la protection d'un copyright, on employa
l'expression « Knowledge discovery in data bases » (KDD).
• Puis, dans les années 1990, viennent les techniques d'apprentissage automatique, qui complètent les outils de
l'analyste.
• Une entreprise aussi importante que [Link] se sert actuellement de tous ces outils pour proposer à ses clients
des produits susceptibles de les intéresser.

11/01/2021 3IL I2 - Datamining 5


Domaines d’utilisation
Applications du datamining
6
Objectifs opérationnels de l’exploration de données
• Les sociétés de vente par correspondance analysent, avec cette technique, le comportement des consommateurs pour
dégager des similarités de comportement, accorder des cartes de fidélité, ou établir des listes de produits à proposer
en vente additionnelle.
• Un publipostage (mailing) servant à la prospection de nouveaux clients possède un taux de réponses de 10 % en moyenne. Les
entreprises de marketing utilisent la fouille de données pour réduire le coût d'acquisition d'un nouveau client en classant
les prospects selon des critères leur permettant d'augmenter les taux de réponses aux questionnaires envoyés.
• Ces mêmes entreprises, mais d'autres aussi comme les banques, les opérateurs de téléphonie mobile ou les assureurs,
cherchent grâce à l'exploration de données à minimiser l’attrition de leurs clients puisque le coût de conservation d'un client
est moins important que celui de l'acquisition d'un nouveau.
• Les services de polices de tous les pays cherchent à caractériser les crimes et les comportements des criminels afin de
prévenir le crime, limiter les risques et les dangers pour la population.
• Le scoring des clients dans les banques permet de repérer les « bons » clients, sans facteur de risque à qui les organismes
financiers, banques, assurances, peuvent proposer une tarification adaptée et des produits attractifs, tout en limitant le risque
de non-remboursement ou de non-paiement ou encore de sinistre dans le cas des assurances.
• Les centres d'appel utilisent cette technique pour améliorer la qualité du service et permettre une réponse adaptée de
l'opérateur pour la satisfaction du client.
• Dans la recherche du génome humain, les techniques d'exploration de données ont été utilisées pour découvrir les gènes et
leur fonction.

11/01/2021 3IL I2 - Datamining 7


Utilisation sectorielle du datamining (2010)

Branches et domaines dans lesquels est utilisée l'exploration des données (%).
CRM/ analyse de la Santé, ressources
26,8 Banque 19,2 13,1
consommation humaines
Marketing
Détection de fraude 12,7 Finance 11,3 11,3
direct, collecte de fonds
Télécommunication 10,8 Assurance 10,3 Sciences 10,3
Éducation 9,9 Publicité 9,9 Web 8,9
Médical 8,0 Produits manufacturés 8,0 Commerce de détail 8,0
Notation crédit 8,0
Commerce électronique 7,0
Moteur de recherche 6,6
Réseaux sociaux 6,6
Gouvernement, militaire 6,1

11/01/2021 3IL I2 - Datamining 8


Logiciels commerciaux
Logiciels et logiciel R
9
Les logiciels commerciaux de datamining (2010)

• Commercial data-mining software and applications


• SAS Enterprise Miner - data mining software provided by the SAS Institute.
• SPSS Modeler - data mining software provided by IBM SPSS. According to Rexer's Annual Data Miner
Survey in 2010, IBM SPSS Modeler (along with STATISTICA Data Miner and R) received the strongest
satisfaction ratings in both 2010 and 2009.
• STATISTICA Data Miner - data mining software provided by StatSoft. According to Rexer's Annual Data Miner
Survey in 2010, STATISTICA Data Miner (along with IBM SPSS Modeler and R) received the strongest
satisfaction ratings in both 2010 and 2009; moreover, in 2010 it was rated as the primary data mining tool
chosen most often (18%).

• In 2010, the open-source R language overtook other tools to become the tool used by more data miners
(43%) than any other.

11/01/2021 3IL I2 - Datamining 10


Le logiciel libre R

• R est un langage de programmation et un logiciel libre destiné aux statistiques et à la science des
données soutenu par la R Foundation for Statistical Computing.
• GNU R est un logiciel libre distribué selon les termes de la licence GNU GPL
• Le langage R est largement utilisé par les statisticiens, les data miners, data scientists pour le développement
de logiciels statistiques et l'analyse des données.
• En 2015, plusieurs acteurs économiques importants comme IBM, Microsoft ou encore la société RStudio créent
le R Consortium pour soutenir la communauté R et financer des projets autour de ce langage
• La distribution la plus connue du langage R est celle du R Project et du Comprehensive R Archive
Network (CRAN). Il existe d'autres distributions comme la distribution proposée par Microsoft ou par Oracle.
• Le langage R est intégré à certains SGBDR comme SQL Server depuis la version 2016.

11/01/2021 3IL I2 - Datamining 11


Fouilles L’élargissement des
sources d’informations
12
spécialisées
Spécialisations du datamining

• Certaines entreprises ou groupes se sont spécialisés dans les données de consommation ou dans
les données d'audience. Des logiciels de catégorisation des individus selon leur milieu social et
leurs caractérisations de consommateurs sont utilisés par ces entreprises.

• Outre l'exploration de données « classique », des spécialisations techniques de l'exploration de


données telles que la fouille d'images (image mining), la fouille du web (web data mining),
la fouille de flots de données (data stream mining) et la fouille de textes (text mining) sont en
plein développement depuis les années 2010.
• Elles concentrent l'attention de nombreux chercheurs et industriels, y compris pour les risques de diffusion de données
personnelles qu'elles font courir aux individus.

11/01/2021 3IL I2 - Datamining 13


Fouille des flots de données et d’internet

• La fouille de flots de données (data stream mining) est la technique qui consiste à explorer les données
qui arrivent en un flot continu, illimité, avec une grande rapidité, et dont certains paramètres
fondamentaux se modifient avec le temps : par exemple, l'analyse des flots de données émis par des
capteurs automobiles. Mais des exemples d'applications peuvent être trouvés dans les domaines des
télécommunications, de la gestion des réseaux, de la gestion des marchés financiers, de la surveillance,
et dans les domaines d'activités de la vie de tous les jours, plus proches des personnes, comme
l'analyse des flux de guichet automatique bancaire (GAB), des transactions par cartes de crédit, etc.
• Il s'agit d'exploiter, avec la fouille du web, l'énorme source de données que constitue le web et trouver
des modèles et des schémas dans l'usage, le contenu et la structure du web. La fouille de l'usage du
web (Web usage mining ou Web log mining) est le processus d'extraction d'informations utiles stockées
dans les journaux des serveurs. Cette fouille exploite la fouille de textes pour analyser les documents
textes. La fouille de la structure du web est le processus d'analyse des relations, inconnues à priori, entre
documents ou pages stockés sur le web.

11/01/2021 3IL I2 - Datamining 14


Données spatiales

• La fouille de données spatiales (Spatial data mining) est la technique d'exploration de données
géographiques, mais aussi astronomiques ou microscopiques, dont le but est de trouver des motifs
intéressants dans les données contenant à la fois du texte, des données temporelles ou des
données géométriques, telles que des vecteurs, des trames ou des graphes. Les données spatiales
donnent des informations à des échelles différentes, fournies par des techniques différentes, sous
des formats différents, dans une période de temps souvent longue en vue de l'observation des
changements. Les volumes sont donc très importants, les données peuvent être imparfaites,
bruitées. De plus, les relations entre les données spatiales sont souvent implicites.
• On utilise la fouille de données spatiales pour explorer les données des sciences de la terre, les
données cartographiques du crime, celles des recensements, du trafic routier, des foyers
de cancer, etc.

11/01/2021 3IL I2 - Datamining 15


Limites et Problématiques
techniques et éthiques
16
problèmes
Limites d’utilisation du datamining

• Les outils d'exploration des données ne proposent pas d'interprétation des résultats. Un analyste
spécialiste de la fouille de données et spécialiste du métier duquel sont extraites les données sont
nécessaires pour analyser les livrables du logiciel.
• Les logiciels d'exploration de données donnent toujours un résultat, mais rien n'indique qu'il soit
pertinent, ni ne donne une indication sur sa qualité. Mais, de plus en plus, des techniques d'aide à
l'évaluation sont mises en place dans les logiciels libres ou commerciaux.
• Les relations entre les variables ne sont pas clairement définies. Les outils d'exploration des données
indiquent que telles et telles variables ont une influence sur la variable à expliquer, mais ne disent rien
sur le type de relation, en particulier il n'est pas dit si les relations sont de cause à effet.
• De plus, il peut être très difficile de restituer de manière claire soit par des graphes, des courbes ou des
histogrammes, les résultats de l'analyse. Le non-technicien aura quelquefois du mal à comprendre les
réponses qu'on lui apporte.

11/01/2021 3IL I2 - Datamining 17


Problèmes techniques

• La qualité des données, c'est-à-dire la pertinence et la complétude des données, est une
nécessité pour l'exploration des données.
• Les erreurs de saisies, les enregistrements doublonnés, les données non renseignées ou renseignées sans référence au
temps affectent aussi la qualité des données.

• Les entreprises mettent en place des structures et des démarches d'assurance qualité des données pour pouvoir répondre
efficacement aux nouvelles réglementations externes, aux audits internes, et augmenter la rentabilité de leurs données
qu'elles considèrent comme faisant partie de leur patrimoine.

• L'interopérabilité d'un système est sa capacité à fonctionner avec d'autres systèmes, créés par
des éditeurs différents.
• Les systèmes d'exploration de données doivent pouvoir travailler avec des données venant de plusieurs systèmes de
gestion de bases de données, de type de fichier, de type de données et de capteurs différents.

11/01/2021 3IL I2 - Datamining 18


Problèmes éthiques

• La vie privée des personnes peut être menacée par des projets d'exploration de données, si aucune précaution n'est
prise, notamment dans la fouille du web et l'utilisation des données personnelles collectées sur Internet où les
habitudes d'achats, les préférences, et même la santé des personnes peuvent être dévoilées.

• Un autre exemple est fourni par l'Information Awareness Office et en particulier le programme Total Information
Awareness qui exploitait pleinement la technologie d'exploration de données et qui fut un des projets « post-11
septembre » que le Congrès des États-Unis avait commencé à financer, puis qu'il a abandonné à cause des menaces
particulièrement importantes que ce programme faisait peser sur la vie privée des citoyens américains.

• Mais même sans être dévoilées, les données des personnes recueillies par les entreprises, via les outils de gestion de
la relation client (CRM), les caisses enregistreuses, les DAB, les cartes santé, etc., peuvent conduire, avec les
techniques de fouille de données, à classer les personnes en une hiérarchie de groupes, de bons à
mauvais, prospects, clients, patients, ou n'importe quel rôle que l'on joue à un instant donné dans la vie sociale, selon
des critères inconnus des personnes elles-mêmes.

11/01/2021 3IL I2 - Datamining 19

Vous aimerez peut-être aussi