Data Mining
Définition et histoire :
À l'encontre de la croyance de la plupart des gens, le Data Mining n'est pas une création de notre
ère, mais comme la plupart des concepts et outils proposé par les sciences, il a connu une vaste
reconnu dans les années 80 après son déploiement pratique dans le domaine numérique. Le
développement technologique et informatique avec la Machine Learning et Data Mining ont permis
l'accomplissait de nombreuses tâches qui étaient longues voire impossible à exécuter sans ses outils
à savoir l'amélioration du processus de vente à l'échelle microscopique jusqu'aux interprétations des
données financières pour l’investissement.
Qu’est-ce que le Data Mining ?
Définition :
Dans le cadre d'optimisation et d'exploitation maximal des informations fournis par les volumes
explosives et gigantesque de donnée, le Data Mining assure le rôle d'analyse de grandes quantités de
données et de mégadonnées sous différents angles pour identifier les relations entre les données et
les transformer en informations exploitables. Ce processus système s'inscrit dans le cadre de la
Business Intelligence et a pour objectif d'aider les entreprises à résoudre des problèmes, à réduire
les risques et à identifier et saisir de nouvelles opportunités commerciales.
Ce processus porte autres noms :
Exploration de données
Fouille de données
Forage de données
Le Data Mining est un processus intégral et indissociable à l'analyse de Big Data, d'intelligence
prédictive et d'exploration de données.
Origines du concept
Le Data Mining n`est pas une abstraction récent. L'idée que données ont contiennent des
informations de valeur inestimable existent depuis des années mais le traitement des données
n'était pas pratique a faute de la non existence d'une technologie qui permettra d'extraire cette
valeur ajouté des données. Au XVIIème siècle, les populations cherchaient des solutions à partir de la
comparaison et analyse de données afin d'identifier des caractéristiques représentative.
L'une des premières traces du concept de Data Mining remonte à 1936. C'est cette année-là que le
mathématicien et cryptographe britannique Alan Turing a présenté l'idée d'une machine capable
d'effectuer des calculs parallèle à ceux conduite par les machines modernes pas en terme de
puissance et vitesse de traitement mais en terme de procédure. Les travaux de Turing sont l'un des
gros piliers de l'informatique et programmation.
Mais ce n'est qu'à ce moment-là, dans les années 1980, que le Data Mining a vraiment commencé à
exister et a même trouvé un nom. Son nom vient du fait que les scientifiques de l'époque
comparaient la recherche d'informations d'une forte valeur ajoutée dans une grande base de
données à l'extraction dans une montagne de minerais. Ces deux processus nécessitent en fait de
passer au crible de grandes quantités de matériaux et pierre pour trouver un article de grande valeur.
L’utilité de l’exploration de données aujourd’hui
Aujourd’hui, le Data Mining est utilisé dans de nombreuses secteur d’activité comme la recherche, le
marketing, le développement de produits, la santé ou encore l’éducation.
Ce processus permet de résoudre rapidement des problèmes qui, jusqu’alors, demandaient
énormément de temps pour être réglés manuellement.
L'utilisation de diverses techniques statistiques pour analyser les données permet aux une détection
et identification des modèles, des tendances et des corrélations qui ne sont pas évidents en premier
vue. Les résultats de diverses analyses consécutives permet la prédiction ce qui pourrait arriver et
prendre des mesures et décision qui sur le court ou/et long terme impactera et optimisera les
résultats de l'entreprise.
Une bonne utilisation du Data Mining assurera un avantage concurrentiels considérable face aux
concurrents (surtout ce qui n’adoptent pas la même approche) et peut divulguer les stratégies et des
informations cachées dans leur donnée. Adopter cette approche permet aussi de mieux comprendre
les clients, de développer des stratégies de marketing efficaces, d’augmenter les revenus et de
réduire les coûts.
Concepts clés du Data Mining
Une bonne connaissance et implémentation du Data Mining est une nécessité quand on veut
procéder avec cette approche et ça impliquera de connaître de nombreux concepts, outils et
techniques.
En voici les principaux :
Le nettoyage et préparation des données : c'est une étape au cours de laquelle les données
sont transformées pour être analysées et traitées. Par exemple, supprimez les erreurs ou
identifiez les informations manquantes.
L’intelligence artificielle (IA) : Une imitation de la réflexion comme l’apprentissage, le
raisonnement, l'interprétation et la résolution de problème sous la forme de processus et
systèmes qui exécutent des opérations analytiques.
L’apprentissage de règles d’association : il s’agit d’outils recherchant des relations entre des
variables d’un jeu de données. Il peut, entre autres, permettre à une entreprise d’identifier
des produits qui sont généralement achetés ensemble par les clients.
Le Clustering : c’est un process de partitionnement d’un jeu de données en clusters (sous-
groupes) pour aider les utilisateurs à comprendre le regroupement de données ou des faits
auparavant inconnus.
La Classification : cette technique sert à catégoriser ou classer des informations issues d’un
jeu de données dans le but d’établir des prédictions.
L’analyse de données : c’est le fait d’évaluer des informations numériques et de les utiliser
de manière utile.
Data Warehousing : il s’agit littéralement d’un entreposage de données afin d’aider une
organisation à prendre les meilleures décisions. C’est une composante essentielle du Data
Mining à grande échelle.
Le Machine Learning : c’est une technique de programmation informatique qui utilise des
probabilités statistiques afin de donner aux ordinateurs et IoT la capacité « d’apprendre ». Le
machine Learning et l’intelligence artificielle sont deux notions liées.
La Régression : c’est une méthode analytique utilisée pour prédire une plage de valeurs
numériques (les ventes, les températures ou les cours des actions par exemple) à partir d’un
jeu de données spécifique.