0% ont trouvé ce document utile (0 vote)
44 vues10 pages

Partie Moad

Le document traite de la mise en œuvre d'un projet de data mining, en soulignant l'importance de choisir des techniques appropriées pour l'extraction et l'interprétation des données. Il distingue les méthodes descriptives et prédictives, ainsi que les types de données et les métriques nécessaires pour les algorithmes. Enfin, il aborde les techniques spécifiques comme la classification, l'estimation, la prédiction et la régression.

Transféré par

yanisxenter21
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
44 vues10 pages

Partie Moad

Le document traite de la mise en œuvre d'un projet de data mining, en soulignant l'importance de choisir des techniques appropriées pour l'extraction et l'interprétation des données. Il distingue les méthodes descriptives et prédictives, ainsi que les types de données et les métriques nécessaires pour les algorithmes. Enfin, il aborde les techniques spécifiques comme la classification, l'estimation, la prédiction et la régression.

Transféré par

yanisxenter21
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

M ISE EN ŒUVRE D ’ UN PROJET DE DATA MINING

1. Estimation du modèle

• Choisir une bonne technique pour extraire les connaissances (exploration) des données (arabes
de décision, réseau de neurones, les réseaux bayésiens, le clustering, la segmentation, etc.).

• L’hybridation de ces techniques permet de répondre à des problèmes plus complexes.

2. Interprétation du modèle

• Les utilisateurs ne demandent pas des pages et des pages de chiffres.

• Fournir des modèles simples plus compréhensibles.

• Prouver la solution par un ensemble de tests.

30 / 75
E NSEMBLE DE DONNÉES D ’ UN PROBLÈME DE DATA MINING

A ne pas confondre entre ces trois notions !

Figure

31 / 75
E NSEMBLE DE DONNÉES D ’ UN PROBLÈME DE DATA MINING

▶ Données d’un problème de Data mining

• Les informations sont des exemples avec des attributs

• On dispose généralement d’un ensemble de N données

▶ Attributs
• Un attribut est un descripteur d’une entité. On l’appelle également variable, ou caractéristique.

Exemple :

Figure

32 / 75
T YPE DE DONNÉES

Type de données
▶ Données discrètes : données binaires (sexe, ...), données énumératives (couleur, code postal, ...),
énumératives ordonnées (réponses 1:très satisfait, 2:satisfait, ...).

▶ Données continues : données entières ou réelles (âge, salaire, ...)

▶ Dates.

▶ Données textuelles.

▶ Image et vidéo.

▶ Pages/liens web, ...

33 / 75
D ONNÉES ET M ÉTRIQUES

Les algorithmes nécessitent une notion de similarité dans l’espace X des données. La similarité est
traduite par la notion de distance

▶ distance euclidienne : x , z ∈ Rd , on a

d (x , z ) = ∥x − z ∥2 =
v
u d q
uX
t (xj − zj )2 = (x − z )⊤ (x − z )
j =1

▶ distance de manhattan :
d
X
d (x , z ) = ∥x − z ∥1 = |(xj − zj )|
j =1

▶ distance de mahalanobis : q
d (x , z ) = (x − z )⊤ Σ−1 (x − z )

Σ ∈ Rd ×d : matrice carrée définie positive

34 / 75
L ES MÉTHODES ( TECHNIQUES ) DU DATA M INING

▶ Il existe deux types de méthodes d’exploration de données : les méthodes descriptives (ou non
supervisées) et les méthodes prédictives ( supervisées).

Figure

35 / 75
L ES MÉTHODES ( TECHNIQUES ) DU DATA M INING

Figure

36 / 75
L ES MÉTHODES ( TECHNIQUES ) DU DATA M INING

▶ Méthodes descriptives (ou non supervisées) : elle consiste à trouver les caractéristiques
générales relatives aux données fouillées (Résumé/synthèse, Clustering (segmentation), Règles
d’association, description). autrement dit : Elles cherchent à mettre en valeur des informations
pertinentes, mais quisont au départ noyées dans une masse de données.

▶ Méthodes prédictives (ou supervisées) : Consiste à utiliser certaines variables pour prédire les
valeurs futures inconnues de la même variable ou d’autres variables (Séries temporelles,
Régression, Classification, Estimation, Prediction). autrement dit : Elles s’appuient sur des
informations connues pour deviner de futures données.

37 / 75
LES MÉTHODES ( TECHNIQUES ) DU DATA M INING

Figure

38 / 75
LES MÉTHODES ( TECHNIQUES ) PREDICTIVES

▶ Classification : La classification consiste à étudier les caractéristiques d’un nouvel objet pour
l’attribuer à une classe prédéfinie. Le fonctionnement de la classification se décompose en deux
phases. La première étant la phase d’apprentissage. Dans cette phase, les approches de
classification utilisent un jeu d’apprentissage dans lequel tous les objets sont déjà associés aux
classes de références connues. L’algorithme de classification apprend du jeu d’apprentissage et
construit un modèle. La seconde phase est la phase de classification proprement dite, dans
laquelle le modèle appris est employé pour classifier de nouveaux objets.

▶ Estimation : L’estimation est similaire à la classification à part que la variable de sortie est
numérique plutôt que catégorique. En fonction des autres champs de l’enregistrement l’estimation
consiste à compléter une valeur manquante dans un champ particulier.

▶ Prédiction (Prévision) : cette technique vise à analyser, estimer et prédire des valeurs et
tendances futures. Sa finalité : découvrir des structures qui peuvent mener à des prédictions et
modèles vraisemblables.

▶ Régression : Elle est utilisée pour l’estimation des valeurs continues. Son objectif est de trouver le
meilleur modèle qui décrit la relation entre une variable continue de sortie et une ou plusieurs
variables d’entrée. Il s’agit de trouver une fonction f qui se rapproche le plus possible d’un scénario
donné d’entrées et de sorties.
39 / 75

Vous aimerez peut-être aussi