Correction SN Inf371

Le document présente une introduction à la fouille de données, définissant des concepts clés tels que les données étiquetées, la fouille de données, les motifs fréquents et les règles d'association. Il décrit également les étapes du processus de fouille de données, les méthodes de validation croisée, ainsi que les notions de précision et de rappel. Enfin, il inclut des exercices pratiques sur le traitement des données, la normalisation et la construction d'un arbre de décision.

Transféré par

jessica.akono

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

24 vues2 pages

Correction SN Inf371

Transféré par

jessica.akono

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

INF371 - EC1 : Introduction à la Fouille de données

Durée : 1 heure
NB : téléphones, ordinateurs, documents fermés

Question de cours : (2+2+2+2 points)

1. Définissez les termes suivants :
— Données étiquetées : Données pour lesquelles chaque exemple est associé
à une étiquette ou une classe connue, souvent utilisées pour l’apprentissage
supervisé.
— Fouille de données : Processus d’extraction de connaissances utiles à partir
de grandes quantités de données, en utilisant des techniques statistiques, de
machine learning et de bases de données.
— Motif fréquent : Ensemble d’éléments, séquences ou structures qui appa-
raissent fréquemment dans un jeu de données.
— Règle d’association : Relation implicite trouvée dans un jeu de données,
exprimée sous la forme ”Si X, alors Y”.
2. Étapes de la fouille de données :
— Compréhension des objectifs métier.
— Préparation des données (nettoyage, transformation).
— Exploration et modélisation des données.
— Évaluation du modèle.
— Déploiement des résultats.
3. Validation croisée d’ordre k et holdout :
— Validation croisée d’ordre k : Diviser les données en k sous-ensembles ;
utiliser k − 1 pour l’entraı̂nement et 1 pour le test, en répétant k fois.
— Holdout : Séparer une partie fixe des données pour l’entraı̂nement et une
autre pour le test.
4. Précision et rappel :
— Précision : Proportion des prédictions positives correctes parmi toutes les
prédictions positives.
— Rappel : Proportion des instances positives correctement identifiées parmi
toutes les instances positives.

Exercice 2 : (1+2+2+2 points)

Soit le jeu de données représenté dans le tableau ci-dessous où x1 et x2 sont les caractères
mesurés sur les individus ”Classe”. La classe ” ?” représente la valeur manquante, stockée
dans le fichier [Link].
1. Commande R pour charger les données :
data <- [Link]("[Link]", header = TRUE, sep = "\t")

2. Méthodes pour remplacer les valeurs manquantes :

— Remplacement par la moyenne :

1
Individu x1 x2 Classe
W1 2.8 2.0 A
W2 7 4.3 B
W3 2.9 ? A
W4 1.2 6 B
W5 ? 4.4 B

Table 1 – Jeu de données

data$x1[[Link](data$x1)] <- mean(data$x1, [Link] = TRUE)

data$x2[[Link](data$x2)] <- mean(data$x2, [Link] = TRUE)

— Remplacement par la médiane :

data$x1[[Link](data$x1)] <- median(data$x1, [Link] = TRUE)
data$x2[[Link](data$x2)] <- median(data$x2, [Link] = TRUE)

3. Normalisation : La normalisation consiste à transformer les données pour qu’elles

soient dans une même échelle, par exemple entre 0 et 1. Cela améliore les perfor-
mances des algorithmes sensibles aux amplitudes.
data$x1 <- (data$x1 - min(data$x1)) / (max(data$x1) - min(data$x1))
data$x2 <- (data$x2 - min(data$x2)) / (max(data$x2) - min(data$x2))

4. Discrétisation et extraction des règles :

library(arules)
discretized_data <- discretizeDF(data)
rules <- apriori(discretized_data, parameter = list(supp = 0.5, conf = 0.8))
inspect(rules)

Exercice 3 : (2+1+2 points)

La figure suivante est un arbre de décision construit pour prédire si le temps est favorable
pour la pratique du sport.
Ciel
Ensoleillé Couvert
Humidité Vent
Élevée → Non Fort → Non
Basse → Oui Faible → Oui
1. Attributs utilisés : Ciel, Humidité, Vent. Non, ils ne sont pas les seuls possibles.
Par exemple, la température pourrait être pertinente.
2. Étiquettes possibles de l’attribut classe : Oui, Non.
3. Algorithme pour construire cet arbre :
— Utiliser l’algorithme ID3 ou C4.5.
— Sélectionner l’attribut avec le plus grand gain d’information à chaque nœud.
— Répéter jusqu’à ce que toutes les instances soient classées ou qu’un critère
d’arrêt soit atteint.

Vous aimerez peut-être aussi

Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
2 pages
Correction CC Inf371
Pas encore d'évaluation
Correction CC Inf371
3 pages
Prova ISD 2022-23
Pas encore d'évaluation
Prova ISD 2022-23
3 pages
TP 1
Pas encore d'évaluation
TP 1
29 pages
Guide Complet sur l'Apprentissage Machine
Pas encore d'évaluation
Guide Complet sur l'Apprentissage Machine
26 pages
Analyse de données avec R et ACP
Pas encore d'évaluation
Analyse de données avec R et ACP
2 pages
Datamining : Exercices et Méthodes
50% (2)
Datamining : Exercices et Méthodes
5 pages
Analyse de Données : Méthodes et Outils
Pas encore d'évaluation
Analyse de Données : Méthodes et Outils
3 pages
Cours LEDMI Makhlouf
Pas encore d'évaluation
Cours LEDMI Makhlouf
75 pages
Datamining : Théorie, Pratique et Exercices
100% (2)
Datamining : Théorie, Pratique et Exercices
8 pages
TP Dichotomie
Pas encore d'évaluation
TP Dichotomie
5 pages
ACP Budget Temps Correction
Pas encore d'évaluation
ACP Budget Temps Correction
9 pages
TPinit R
Pas encore d'évaluation
TPinit R
4 pages
Devoir Mukam William
Pas encore d'évaluation
Devoir Mukam William
12 pages
Notes de Cours - CH 1 À 5 MAT2080
Pas encore d'évaluation
Notes de Cours - CH 1 À 5 MAT2080
23 pages
Statistiques descriptives avec R
Pas encore d'évaluation
Statistiques descriptives avec R
4 pages
Outils Python Pour La Data Science (PDFDrive)
Pas encore d'évaluation
Outils Python Pour La Data Science (PDFDrive)
26 pages
Corrigé D'un Examen de Machine Learning S4 Génie MIS
100% (1)
Corrigé D'un Examen de Machine Learning S4 Génie MIS
25 pages
Arbres de Decision
Pas encore d'évaluation
Arbres de Decision
80 pages
IA Exercices Applications (Corrigés)
Pas encore d'évaluation
IA Exercices Applications (Corrigés)
6 pages
Évaluation intermédiaire en sciences des données
Pas encore d'évaluation
Évaluation intermédiaire en sciences des données
8 pages
Corrige Fouille de Données
Pas encore d'évaluation
Corrige Fouille de Données
6 pages
Méthodes d'Apprentissage Non-Supervisées
Pas encore d'évaluation
Méthodes d'Apprentissage Non-Supervisées
65 pages
Exercice 1: Classification Avec L'algorithme Des K Plus Proches Voisins (K-NN)
100% (1)
Exercice 1: Classification Avec L'algorithme Des K Plus Proches Voisins (K-NN)
7 pages
TP MapReduce avec RHadoop en R
Pas encore d'évaluation
TP MapReduce avec RHadoop en R
7 pages
Data Minig
Pas encore d'évaluation
Data Minig
10 pages
Cours - Apprentissage Statistique
100% (1)
Cours - Apprentissage Statistique
24 pages
Exercices pratiques sur Numpy et Pandas
Pas encore d'évaluation
Exercices pratiques sur Numpy et Pandas
10 pages
Apprentissage Statistique en Ingénierie Mathématique
Pas encore d'évaluation
Apprentissage Statistique en Ingénierie Mathématique
24 pages
Machine Learning - 2 Analyse en Composantes Principale
Pas encore d'évaluation
Machine Learning - 2 Analyse en Composantes Principale
37 pages
Travaux Dirigés en Analyse des Données
100% (1)
Travaux Dirigés en Analyse des Données
8 pages
Devoir de Data Mining - Université Carthage
Pas encore d'évaluation
Devoir de Data Mining - Université Carthage
2 pages
Cours Datamining P2
Pas encore d'évaluation
Cours Datamining P2
26 pages
Ilovepdf Merged
Pas encore d'évaluation
Ilovepdf Merged
99 pages
Exam Fouille Extraction Datamining Donnees 2017 2018corrige
100% (1)
Exam Fouille Extraction Datamining Donnees 2017 2018corrige
9 pages
Examen mi-session IA II - Solutions détaillées
Pas encore d'évaluation
Examen mi-session IA II - Solutions détaillées
7 pages
Apprentissage supervisé : Perceptron et TP
Pas encore d'évaluation
Apprentissage supervisé : Perceptron et TP
3 pages
Minitab Exercices de Base
Pas encore d'évaluation
Minitab Exercices de Base
321 pages
Poly FML
Pas encore d'évaluation
Poly FML
34 pages
Traitement et Nettoyage des Données
Pas encore d'évaluation
Traitement et Nettoyage des Données
41 pages
Leçon 1 WB
Pas encore d'évaluation
Leçon 1 WB
12 pages
KNN et Mesures de Distance en Classification
Pas encore d'évaluation
KNN et Mesures de Distance en Classification
22 pages
Initiation à R : Exercices et Solutions
Pas encore d'évaluation
Initiation à R : Exercices et Solutions
10 pages
Concours Informatique 2019
Pas encore d'évaluation
Concours Informatique 2019
7 pages
Analyse des Données et Méthodes Statistiques
67% (3)
Analyse des Données et Méthodes Statistiques
144 pages
Analyse de Données Et Classification
Pas encore d'évaluation
Analyse de Données Et Classification
212 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
20 pages
Critères d'arrêt et validation en Data Science
Pas encore d'évaluation
Critères d'arrêt et validation en Data Science
4 pages
Fiche TD N°2 : Qualité et Normalisation des Données
Pas encore d'évaluation
Fiche TD N°2 : Qualité et Normalisation des Données
1 page
DATA MINING Examen 2020 Corrigé 1
83% (6)
DATA MINING Examen 2020 Corrigé 1
6 pages
Partiel Data Mining 2022-2023 Sorbonne
Pas encore d'évaluation
Partiel Data Mining 2022-2023 Sorbonne
2 pages
M1 RO - COURS 2 Pretraitement Des Données
Pas encore d'évaluation
M1 RO - COURS 2 Pretraitement Des Données
27 pages
TP4 Methodes Descriptives - AFC
Pas encore d'évaluation
TP4 Methodes Descriptives - AFC
7 pages
TP Pretraitement
Pas encore d'évaluation
TP Pretraitement
17 pages
Examen de Statistique FISE A1 : Estimation et Tests
Pas encore d'évaluation
Examen de Statistique FISE A1 : Estimation et Tests
8 pages
Corrigé Examen NOISE Janvier 2012
Pas encore d'évaluation
Corrigé Examen NOISE Janvier 2012
17 pages
2 Ensemble Learning
Pas encore d'évaluation
2 Ensemble Learning
46 pages
3 L3 Cours Ann
Pas encore d'évaluation
3 L3 Cours Ann
26 pages
Algorithme Gradient Conjugué
Pas encore d'évaluation
Algorithme Gradient Conjugué
1 page
Promotion des Officiers des Forces de Défense
Pas encore d'évaluation
Promotion des Officiers des Forces de Défense
15 pages
Espaces vectoriels : Méthodes et exercices
Pas encore d'évaluation
Espaces vectoriels : Méthodes et exercices
4 pages
ALgo SVD
Pas encore d'évaluation
ALgo SVD
3 pages
Recherche d'élément majoritaire en TD
Pas encore d'évaluation
Recherche d'élément majoritaire en TD
4 pages
Formulaire E MBA
Pas encore d'évaluation
Formulaire E MBA
2 pages
Serie 1 DW 2016
Pas encore d'évaluation
Serie 1 DW 2016
3 pages
Sitrep National Mpox N°6
Pas encore d'évaluation
Sitrep National Mpox N°6
3 pages
Météorite de Tcheliabinsk : Impact et Détails
Pas encore d'évaluation
Météorite de Tcheliabinsk : Impact et Détails
20 pages
CV Med Boudlal FR
Pas encore d'évaluation
CV Med Boudlal FR
1 page
TD3 Suite Electrocinetique
Pas encore d'évaluation
TD3 Suite Electrocinetique
2 pages
Équivalence des diplômes au Canada
Pas encore d'évaluation
Équivalence des diplômes au Canada
52 pages
Resumé PMBOK6
Pas encore d'évaluation
Resumé PMBOK6
27 pages
Services d'Aide et Orientation à Lunéville
Pas encore d'évaluation
Services d'Aide et Orientation à Lunéville
2 pages
الأولى إعدادي - إناث PDF
100% (2)
الأولى إعدادي - إناث PDF
156 pages
Introduction aux courbes elliptiques en cryptographie
Pas encore d'évaluation
Introduction aux courbes elliptiques en cryptographie
55 pages
Devoir 1 Modele 3 SVT 2 Bac SM A Semestre 1
100% (1)
Devoir 1 Modele 3 SVT 2 Bac SM A Semestre 1
3 pages
Parts Catalog: C10LN C15LN C20LN
Pas encore d'évaluation
Parts Catalog: C10LN C15LN C20LN
41 pages
Examen de Physique: Ondes Électromagnétiques
Pas encore d'évaluation
Examen de Physique: Ondes Électromagnétiques
3 pages
Introduction à la Géologie et ses Disciplines
Pas encore d'évaluation
Introduction à la Géologie et ses Disciplines
20 pages
Fiche N°1 - Chapitre 1
Pas encore d'évaluation
Fiche N°1 - Chapitre 1
3 pages
De La Motivation À La Pédagogie Par Projet
Pas encore d'évaluation
De La Motivation À La Pédagogie Par Projet
18 pages
Master en Rédaction Web en Tunisie
Pas encore d'évaluation
Master en Rédaction Web en Tunisie
2 pages
Cours Hydrogéologie - TSMG - 1 - 2020-2021
Pas encore d'évaluation
Cours Hydrogéologie - TSMG - 1 - 2020-2021
40 pages
Concours Commun Mines-Ponts (CCMP) 2018 MP-PC-PSI-TSI Informatique Commune CB
Pas encore d'évaluation
Concours Commun Mines-Ponts (CCMP) 2018 MP-PC-PSI-TSI Informatique Commune CB
2 pages
TD #7 AGIR COMPETENT 2nde C 2022 2023
Pas encore d'évaluation
TD #7 AGIR COMPETENT 2nde C 2022 2023
2 pages
Fiche Tec Carreaux Céramiques
100% (1)
Fiche Tec Carreaux Céramiques
1 page
Calendrier Examens Printemps 2024
Pas encore d'évaluation
Calendrier Examens Printemps 2024
4 pages
Coûts de non-qualité en gestion qualité
Pas encore d'évaluation
Coûts de non-qualité en gestion qualité
41 pages
Appel à candidature résidence 2025
Pas encore d'évaluation
Appel à candidature résidence 2025
11 pages
Harmonisation des épreuves du baccalauréat UEMOA
Pas encore d'évaluation
Harmonisation des épreuves du baccalauréat UEMOA
80 pages
TD2 Optimisation Emia 2022-2023
Pas encore d'évaluation
TD2 Optimisation Emia 2022-2023
2 pages
Bilan de Matière et Énergie Systèmes Ouverts
Pas encore d'évaluation
Bilan de Matière et Énergie Systèmes Ouverts
9 pages
Manuel de Français pour Secrétaires V
Pas encore d'évaluation
Manuel de Français pour Secrétaires V
221 pages
Notice Sommer
Pas encore d'évaluation
Notice Sommer
28 pages
Fondamentaux du design UX/UI
Pas encore d'évaluation
Fondamentaux du design UX/UI
19 pages
Bearing Identification
Pas encore d'évaluation
Bearing Identification
1 page
Gervaise et Coupeau : Destin tragique en Zola
Pas encore d'évaluation
Gervaise et Coupeau : Destin tragique en Zola
7 pages