0% ont trouvé ce document utile (0 vote)

69 vues16 pages

0 Intro - New

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

69 vues16 pages

0 Intro - New

Transféré par

Nadia Berakna

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

08/04/2018

FOUILLE DE
DONNÉES
A. BELAID, 2018

Université de Béjaia,
Département Informatique

I. Introduction

1
08/04/2018

Plateforme d’enseignement à
distance
• [Link]

• Mot de passe FD2018

• Vous trouverez : le cours en présentation pdf, énoncés de TD

et TP + projet, Biblio, Forum…

Définition
• Data Mining == Fouille de données

• Regroupe un ensemble de techniques et d’outils de la

Statistique, l’Informatique et la Science de l’information

• Le data-mining est un processus d’extractions automatique

d’informations predictives à partir de grandes bases de
données.

• Le data-mining est un processus de découverte de règle,

relations, corrélations et/ou dépendances à travers une
grande quantité de données, grâce à des méthodes
statistiques, mathématiques et de reconnaissances de formes.

2
08/04/2018

Data-Mining : les raisons du

développement
• Données
• Big Data : augmentation sans cesse de données générées
• 11.28 milliards de transactions assurées par CB en 2015, France
• Twitter : 50M de tweets /jour (=7 téraoctets)
• Youtube : 50h de vidéos uploadées /minute
• Facebook : 10 téraoctets /jour
• 2.9 million de mail /seconde
• Création de valeur ajoutée
• Puissance de calcul

• Submergés par les données, manque de connaissance !

Exemples d’applications
• Entreprise et Relation Clients: création de profils clients,
ciblage de clients potentiels et nouveaux marchés
• Finances: minimisation de risques financiers
• Bioinformatique: analyse du génome, mise au point de
médicament ...
• Internet: spam, e-commerce, détection d’intrusion, recherche
d’informations ...
• Sécurité

3
08/04/2018

Exemples d’applications : E-
commerce
Targeting (ciblage)
• Stocker les séquences de clicks des visiteurs, analyser les
caractéristiques des acheteurs
• Faire du ”targeting” lors de la visite d’un client potentiel

Systèmes de recommandation
• Opportunité : les clients notent les produits! Comment tirer
profit de ces données pour proposer des produits à un autre
client ?
• Solutions: technique dit de filtrage collaboratif pour regrouper
les clients ayant les mêmes “goûts”.

Exemples d’applications :
Analyse des risques
Détection de fraudes pour les assurances
• Analyse des déclarations des assurés par un expert afin
d’identifier les cas de fraudes.
• Applications de méthodes statistiques pour identifier les
déclarations fortement corrélées à la fraude.

Prêt Bancaire
• Objectif des banques: réduire le risque des prêts bancaires.
• Créer un modèle à partir de caractérisques des clients pour
discriminer les clients à risque des autres.

4
08/04/2018

Exemples d’applications :
Commerce
Opinion mining
• Exemple: analyser l’opinion des usagers sur les produits d’une
entreprise à travers les commentaires sur les réseaux sociaux
et les blogs

• B. Pang et L. Lee, Opinion mining and sentiment analysis, 2008

Mise en oeuvre d’un projet de

5
08/04/2018

Mise en oeuvre d’un projet de

Type de données
• Capteurs  variables quantitatives, qualitatives, ordinales
• Texte  Chaîne de caractères
• Parole  Séries temporelles
• Images  données 2D
• Videos  données 2D + temps
• Réseaux  Graphes
• Flux  Logs, coupons. . .
• Etiquettes  information d’évaluation
• Big Data (volume, vélocité, variété), flot "continu" de données
• Pre-traitement des données: nettoyage, normalisation, codage. . .
• Représentation : des données aux vecteurs

6
08/04/2018

Données du DM: illustration

Données et Métriques
Les algorithmes nécessitent une notion de similarité dans l’espace 𝓧 des
données. La similarité est traduite par la notion de distance. Pour
𝑥, 𝑦 ∈ 𝑅𝑑 , on a :
distance euclidienne :
𝑑
2
𝐷 𝑥, 𝑦 = 𝑥 − 𝑦 2 = 𝑥𝑗 − 𝑦𝑗
𝑗=1

= 𝑥 − 𝑦 𝑇 (𝑥 − 𝑦).
distance de manhattan
𝑑

𝐷 𝑥, 𝑦 = 𝑥 − 𝑦 1 = 𝑥𝑗 − 𝑦𝑗 .
𝑗=1
distance de mahalanobis
𝐷 𝑥, 𝑦 = 𝑥 − 𝑦 𝑇 𝑀−1 (𝑥 − 𝑦), avec 𝑀 ∈ 𝑅𝑑×𝑑 : matrice carrée
définie positive

7
08/04/2018

Caractérisation des méthodes

Types d’apprentissage
• Apprentissage supervisé (predictif) – Reg, Reg logi :Class
• Apprentissage non-supervisé (descriptif)- Clust, ACP
• Apprentissage semi-supervisé

Organisation du cours
• Introduction et généralités
• Méthode des 𝑘 plus proches voisins
• Clustering
• CHA
• K means
• Modèles de mélange
• Modèle bayesien
• La régression
• La réduction de données

8
08/04/2018

Caractérisation des méthodes :

apprentissage supervisé
Objectif
• A partir des données *(𝑥𝑖 , 𝑦𝑖 ) ∈ 𝓧 × 𝓨, 𝑖 = 1, … , 𝑁+, estimer
les dépendances entre 𝓧 𝑒𝑡 𝓨.
• On parle d’apprentissage supervisé car les 𝑦𝑖 permettent de
guider le processus d’estimation.
Exemples
• Estimer les liens entre habitudes alimentaires et risque
d’infarctus. 𝑥𝑖 : d attributs concernant le régime d’un patient,
𝑦𝑖 sa catégorie (risque, pas risque).
• Applications: détection de fraude, diagnostic médical ...
Techniques
• k-plus proches voisins, SVM, régression logistique, arbre de
décision ...

Caractérisation des méthodes :

Apprentissage non-supervisé
Objectifs
• Seules les données *𝑥𝑖 ∈ 𝓧, 𝑖 = 1, … , 𝑁+ sont disponibles. On
cherche à décrire comment les données sont organisées et en
extraire des sous-ensemble homogènes.
Exemples
• Catégoriser les clients d’un supermarché. 𝑥𝑖 représente un
individu (adresse, âge, habitudes de courses ...)
• Applications: identification de segments de marchés,
catégorisation de documents similaires, segmentation
d’images biomédicales ...
Techniques
• Classification hiérarchique, Carte de Kohonen, K-means,
extractions de règles ...

9
08/04/2018

Caractérisation des méthodes :

apprentissage semi-supervisé
Objectifs
• Parmi les données, seulement un petit nombre ont un label i.e
𝑥1 , 𝑦1 , … , 𝑥𝑛 , 𝑦𝑛 , 𝑥𝑛+1 , … , 𝑥𝑁 . L’objectif est le même que
pour l’apprentissage supervisé mais on aimerait tirer profit
des données sans étiquette.
Exemples
• Pour la discrimination de pages Web, le nombre d’exemples
peut être très grand mais leur associer un label (ou étiquette)
est coûteux.
Techniques
• Méthodes bayésiennes, SVM ...

Apprentissage supervisé : les

concepts
• Soit deux ensembles 𝓧et 𝓨 munis d’une loi de probabilité
jointe 𝑝(𝑋, 𝑌).

• Objectifs : On cherche une fonction 𝑓: 𝓧 → 𝓨 qui à 𝑋 associe

𝑓(𝑋) qui permet d’estimer la valeur 𝑦 associée à 𝑥.
• 𝑓 appartient à un espace 𝑯 appelé espace d’hypothèses.
• Exemple de 𝑯 : ensemble des fonctions polynomiales

10
08/04/2018

Apprentissage supervisé : les

concepts
• On introduit une notion de coût 𝐿(𝑌, 𝑓(𝑋)) qui permet
d’évaluer la pertinence de la prédiction de 𝑓 , et de pénaliser
les erreurs.

• L’objectif est donc de choisir la fonction 𝑓 qui minimise:

𝑅 𝑓 = 𝐸𝑋,𝑌 ,𝐿(𝑌, 𝑓(𝑋))-

• où R est appelé le risque moyen ou erreur de généralisation. Il

est également noté EPE(f ) pour Expected Prediction Error

Apprentissage supervisé : les

concepts
• Exemples de fonction coût et de risque moyen associé.
• Coût quadratique (moindres carrés)
2
𝐿(𝑌, 𝑓 (𝑋)) = 𝑌 − 𝑓 𝑋 ,
2 2
𝑅 𝑓 = 𝐸 𝑌 − 𝑓 𝑋 =∫ 𝑦 − 𝑓 𝑥 𝑝 𝑥, 𝑦 𝑑𝑥𝑑𝑦.

• Coût (moindres valeurs absolues)

𝐿(𝑌, 𝑓(𝑋)) = 𝑌 − 𝑓 𝑋 ,
𝑅 𝑓 = 𝐸 𝑌 − 𝑓 𝑋 = ∫ 𝑦 − 𝑓 𝑥 𝑝 𝑥, 𝑦 𝑑𝑥𝑑𝑦.

11
08/04/2018

Apprentissage supervisé : les

concepts
• On parle de régression quand 𝓨 est un sous-espace de 𝑅 𝑑 .

2
• Fonction de coût typique : quadratique 𝑦 − 𝑓 𝑥
𝑅 𝑓

𝑃𝑎𝑟𝑎𝑚è𝑡𝑟𝑒 𝛼

Apprentissage supervisé : les

concepts
• On parle de Classification ou Discrimination si 𝓨 est un
ensemble discret non-ordonné, (par exemple −1,1 )

• La fonction de coût la plus usitée est : Θ(−𝑦𝑓(𝑥)) où Θ est la

fonction échelon.

12
08/04/2018

Apprentissage supervisé : les

concepts
• En pratique, on a un ensemble de données * 𝑥𝑖 , 𝑦𝑖 ∈ 𝓧 ×
𝓨, 𝑖 = 1, … , 𝑁+ appelé ensemble d’apprentissage obtenu par
échantillonnage indépendant de 𝑝(𝑋, 𝑌) que l’on ne connaît
pas.

• On cherche une fonction 𝑓 , appartenant à 𝐻 qui minimise le

risque empirique :
𝑁
1
𝑅𝑒𝑚𝑝(𝑓) = 𝐿(𝑦𝑖 , 𝑓(𝑥𝑖 ))
𝑁
𝑖=1
• Le risque empirique ne permet pas d’évaluer la pertinence
d’un modèle car il est possible de choisir 𝑓 de sorte que le
risque empirique soit nul mais que l’erreur en généralisation
soit élevée. On parle alors de sur-apprentissage

Illustration du sur-
apprentissage

Faible Complexité du modèle Elevé

13
08/04/2018

Sélection de modèles
Problématique

• On cherche une fonction 𝑓 qui minimise un risque empirique donné.

On suppose que 𝑓 appartient à une classe de fonctions paramétrées
par 𝛼. Comment choisir 𝛼 pour que 𝑓 minimise le risque empirique
et généralise bien ?

• Exemple : On cherche un polynôme de degré 𝛼 qui minimise un

risque
𝑁

𝑅𝑒𝑚𝑝 𝑓𝛼 = 𝑦𝑖 − 𝑓𝛼 𝑥𝑖 2.

𝑖=1
• Objectifs :
1) proposer une méthode d’estimation d’un modèle afin de choisir
(approximativement) le meilleur modèle appartenant à l’espace
hypothèses.
2) une fois le modèle choisi, calculer son erreur de généralisation.

Sélection de modèles :
approche classique
Cas idéal : Données 𝑫𝑵 avec N très grand

1) Découper aléatoirement 𝐷𝑁 = 𝐷𝑎𝑝𝑝 ∪ 𝐷𝑣𝑎𝑙 ∪ 𝐷𝑡𝑒𝑠𝑡

2) Apprendre chaque modèle possible sur 𝐷𝑎𝑝𝑝
3) Evaluer sa performance en généralisation sur 𝐷𝑣𝑎𝑙
1
𝑅𝑣𝑎𝑙 = 𝐿 𝑦𝑖 , 𝑓 𝑥𝑖 ,
𝑁𝑣𝑎𝑙
𝑖∈𝐷𝑣𝑎𝑙
4) Sélectionner modèle qui donne la meilleure performance sur 𝐷𝑣𝑎𝑙
5) Tester le modèle retenu sur 𝐷𝑡𝑒𝑠𝑡

14
08/04/2018

Sélection de modèles :
Validation Croisée
Cas moins favorable : les données 𝑫𝑵 sont modestes

• Estimation de l’erreur de généralisation par rééchantillonnage.

• Principe
1) Séparer les 𝑁 données en 𝐾 ensembles de part égales.
2) Pour chaque 𝑘 = 1, … , 𝐾, apprendre un modèle en utilisant les
𝐾 − 1 autres ensemble de données et évaluer le modèle sur la
𝑘-ième partie.
3) Moyenner les 𝐾 estimations de l’erreur obtenues pour avoir
l’erreur de validation croisée.

Sélection de modèles :
Validation Croisée (suite)
• Détails :
𝑘 𝑁𝑘
1 1
𝑅𝐶𝑉 = 𝐿(𝑦𝑖𝑘 , 𝑓 −𝑘 (𝑥𝑖𝑘 ))
𝐾 𝑁𝑘
𝐾=1 𝑖=1

• où 𝑓 −𝑘 est le modèle 𝑓 appris sur l’ensemble des données

sauf la 𝑘-ième partie.
• Propriétés : Si 𝐾 = 𝑁 , CV est approximativement un
estimateur sans biais de l’erreur en généralisation.
L’inconvénient est qu’il faut apprendre 𝑁 − 1 modèles.
• typiquement, on choisit 𝐾 = 5 ou 𝐾 = 10 pour un bon
compromis entre le biais et la variance de l’estimateur.

15
08/04/2018

Conclusions
Pour bien mener un projet de DM:

• Identifier et énoncer clairement les besoins.

• Créer ou obtenir des données représentatives du problème
• Identifier le contexte de l’apprentissage
• Analyser et réduire la dimension des données
• Choisir un algorithme et/ou un espace d’hypothèses.
• Choisir un modèle en appliquant l’algorithme aux données
prétraitées.
• Valider les performances de la méthode.

Au final ...
• Les voies du Machine Learning et du traitement des données c’est ...

Vous aimerez peut-être aussi

Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
83 pages
MID RDF 02
Pas encore d'évaluation
MID RDF 02
53 pages
Classification Et Évaluation
Pas encore d'évaluation
Classification Et Évaluation
52 pages
Concepts de Base en Apprentissage Automatique
Pas encore d'évaluation
Concepts de Base en Apprentissage Automatique
37 pages
Chap1-Introduction Au ML
Pas encore d'évaluation
Chap1-Introduction Au ML
41 pages
Cours ML Mounira
100% (1)
Cours ML Mounira
131 pages
Cours ML
Pas encore d'évaluation
Cours ML
40 pages
L'apprentissage Automatique Octobre 2024
Pas encore d'évaluation
L'apprentissage Automatique Octobre 2024
61 pages
Cour 2
Pas encore d'évaluation
Cour 2
3 pages
Chapit 1 ML L3 IRS
Pas encore d'évaluation
Chapit 1 ML L3 IRS
38 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
49 pages
DM2 - 22 10 2024
100% (1)
DM2 - 22 10 2024
117 pages
Chap3-Recherche Par Le Contenu
Pas encore d'évaluation
Chap3-Recherche Par Le Contenu
117 pages
Introduction à l'Apprentissage Automatique
Pas encore d'évaluation
Introduction à l'Apprentissage Automatique
36 pages
Introduction au Data Mining et Classifieurs
100% (10)
Introduction au Data Mining et Classifieurs
14 pages
Cours
Pas encore d'évaluation
Cours
575 pages
D'algorithmes Et de Modèles
100% (1)
D'algorithmes Et de Modèles
53 pages
Chapitre7 Intelligence Artificielle
Pas encore d'évaluation
Chapitre7 Intelligence Artificielle
29 pages
Cours Fouille de Données Partie2
Pas encore d'évaluation
Cours Fouille de Données Partie2
83 pages
Résumé
Pas encore d'évaluation
Résumé
25 pages
Chapitre 1m2r
Pas encore d'évaluation
Chapitre 1m2r
7 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
7 pages
Chapitre - MachineLearning - Arbre de Decison
Pas encore d'évaluation
Chapitre - MachineLearning - Arbre de Decison
31 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
16 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
51 pages
IA Appliquée pour Ingénieurs GE
Pas encore d'évaluation
IA Appliquée pour Ingénieurs GE
42 pages
Data - Science - Chap4 - 1 - Machine - Learning - Preliminaires FR
Pas encore d'évaluation
Data - Science - Chap4 - 1 - Machine - Learning - Preliminaires FR
42 pages
Apprentissage Supervise
Pas encore d'évaluation
Apprentissage Supervise
16 pages
Introduction au Machine Learning et IA
Pas encore d'évaluation
Introduction au Machine Learning et IA
20 pages
MLBy HVR-FR
Pas encore d'évaluation
MLBy HVR-FR
74 pages
Cours 1
Pas encore d'évaluation
Cours 1
4 pages
résuméML1
Pas encore d'évaluation
résuméML1
6 pages
Cours de Machine Learning: Théorie et Pratique
Pas encore d'évaluation
Cours de Machine Learning: Théorie et Pratique
84 pages
Cours Sur Les Généralités Du Machine Learning
Pas encore d'évaluation
Cours Sur Les Généralités Du Machine Learning
12 pages
Chap01.introduction Apprentissage
Pas encore d'évaluation
Chap01.introduction Apprentissage
37 pages
Cours-Data-Mining Master BIBDA 2017 2018
Pas encore d'évaluation
Cours-Data-Mining Master BIBDA 2017 2018
164 pages
Introduction IA et Machine Learning
Pas encore d'évaluation
Introduction IA et Machine Learning
137 pages
Cours App Sup R2
100% (1)
Cours App Sup R2
429 pages
Cours Fouilles Donnees
Pas encore d'évaluation
Cours Fouilles Donnees
37 pages
2 - Types D'apprentissage Automatique
Pas encore d'évaluation
2 - Types D'apprentissage Automatique
15 pages
Intelligence-Artificielle 25 Cours
Pas encore d'évaluation
Intelligence-Artificielle 25 Cours
19 pages
Rapport of Machine Learning
Pas encore d'évaluation
Rapport of Machine Learning
63 pages
Cours Fouille de Données
100% (1)
Cours Fouille de Données
59 pages
01 Concepts Fondamentaux 2pages
Pas encore d'évaluation
01 Concepts Fondamentaux 2pages
32 pages
L Apprentissage Machine
Pas encore d'évaluation
L Apprentissage Machine
46 pages
Cours LEDMI Makhlouf
Pas encore d'évaluation
Cours LEDMI Makhlouf
75 pages
Classification d'Images par Apprentissage Artificiel
100% (1)
Classification d'Images par Apprentissage Artificiel
7 pages
Apprentissage Supervisé - Introduction - vf23
Pas encore d'évaluation
Apprentissage Supervisé - Introduction - vf23
44 pages
Steps To Complete A Machine Learning
Pas encore d'évaluation
Steps To Complete A Machine Learning
11 pages
AI Cours
Pas encore d'évaluation
AI Cours
12 pages
DM2 - 14 10 2024
Pas encore d'évaluation
DM2 - 14 10 2024
110 pages
Introd M Beamer
Pas encore d'évaluation
Introd M Beamer
28 pages
Classification 1
Pas encore d'évaluation
Classification 1
29 pages
Fouilles de Données Part1 Concepts D Base
Pas encore d'évaluation
Fouilles de Données Part1 Concepts D Base
16 pages
MLchap1 Verpedagogique23 24
Pas encore d'évaluation
MLchap1 Verpedagogique23 24
11 pages
Apprentissage
Pas encore d'évaluation
Apprentissage
77 pages
Recherche D Information
Pas encore d'évaluation
Recherche D Information
49 pages
DM - Chapitre 3
Pas encore d'évaluation
DM - Chapitre 3
13 pages
Azizi Cour FD
Pas encore d'évaluation
Azizi Cour FD
48 pages
Chap 3 Régression
100% (1)
Chap 3 Régression
17 pages
Chap.01 Intro 18-19 1
Pas encore d'évaluation
Chap.01 Intro 18-19 1
17 pages
Chap.01 Intro 18-19 2
Pas encore d'évaluation
Chap.01 Intro 18-19 2
9 pages
Exam Setif 022
Pas encore d'évaluation
Exam Setif 022
1 page
Corrige Type
Pas encore d'évaluation
Corrige Type
4 pages
Examen Classification Dec2018
Pas encore d'évaluation
Examen Classification Dec2018
3 pages
Chap - Analyse D'associations - Partie 01-18-19
Pas encore d'évaluation
Chap - Analyse D'associations - Partie 01-18-19
12 pages
Examen Ratt 2018 Corrigé Type
100% (1)
Examen Ratt 2018 Corrigé Type
5 pages
Exercices SVM pour Master STIC
Pas encore d'évaluation
Exercices SVM pour Master STIC
2 pages
Examen Final 2018 Corrigé Type
Pas encore d'évaluation
Examen Final 2018 Corrigé Type
5 pages
Controle AD Corrigé Type-2
100% (1)
Controle AD Corrigé Type-2
4 pages
Exercices sur les SVM et noyaux
0% (1)
Exercices sur les SVM et noyaux
3 pages
ACP : Centrage et Réduction des Données
100% (1)
ACP : Centrage et Réduction des Données
25 pages
Examen Final IFT3395/6390: Apprentissage Machine
Pas encore d'évaluation
Examen Final IFT3395/6390: Apprentissage Machine
11 pages