0% ont trouvé ce document utile (0 vote)
84 vues41 pages

Data Science Correction - Copy - Final - Copie FR

Le document traite de la science des données et de l'apprentissage automatique, en expliquant des concepts clés tels que l'apprentissage supervisé et non supervisé, ainsi que des algorithmes comme l'algorithme d'Apriori pour l'extraction de règles d'association. Il aborde également des notions de surajustement et de sous-ajustement des modèles, ainsi que des techniques d'évaluation comme la courbe ROC et l'AUC. Enfin, il présente des méthodes de nettoyage et de normalisation des données, ainsi que des techniques de clustering comme le k-means et le clustering hiérarchique.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
84 vues41 pages

Data Science Correction - Copy - Final - Copie FR

Le document traite de la science des données et de l'apprentissage automatique, en expliquant des concepts clés tels que l'apprentissage supervisé et non supervisé, ainsi que des algorithmes comme l'algorithme d'Apriori pour l'extraction de règles d'association. Il aborde également des notions de surajustement et de sous-ajustement des modèles, ainsi que des techniques d'évaluation comme la courbe ROC et l'AUC. Enfin, il présente des méthodes de nettoyage et de normalisation des données, ainsi que des techniques de clustering comme le k-means et le clustering hiérarchique.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

SÉANCE 'EXPLICATIONS D'EXERCICES

Science des données : Science permettant de traiter de grandes quantités de


données structurées ou non structurées afin d'obtenir des informations précieuses
sur l'entreprise et de faciliter la prise de décision.
Apprentissage automatique : domaine d'étude qui donne aux ordinateurs la
capacité d'apprendre sans être explicitement programmés.
La connaissance : Il s'agit de l'ensemble des modèles obtenus après l'apprentissage
exploité pour généraliser les données.
L'importance de la science des données aujourd'hui

• Extraire de la valeur des données


• Améliorer la prise de décision
• Applications à divers domaines
Apprentissage supervisé ou non supervisé
L'apprentissage automatique supervisé repose sur des données d'entrée et de sortie
étiquetées, tandis que l'apprentissage non supervisé traite des données brutes ou
non étiquetées.
Supervisé (classification, régression)

• Arbre de décision, régression logistique, régression linéaire, machine à vecteur


de support
Non supervisé (regroupement, association, réduction de la dimension)

• clustering k-means, clustering hiérarchique et algorithme apriori

Source : https://tinyurl.com/2p9x2eba
Pourquoi appelle-t-on Bayes naïf ?
car il suppose que chaque variable d'entrée est indépendante.

• Il s'agit d'une hypothèse forte et irréaliste pour les données réelles ; cependant, la
technique est très efficace pour un large éventail de problèmes complexes.

L'algorithme que nous avons utilisé pour l'extraction des règles d'association est
l'algorithme d'Apriori. Cet algorithme est efficace parce qu'il s'appuie sur la propriété
d'Apriori et l'exploite. Qu'est-ce que la propriété d'Apriori ?

La propriété Apriori stipule que si un ensemble d'éléments est fréquent, tous ses sous-
ensembles doivent l'être également.
Qu'est-ce que le data mining ? Dans votre réponse, abordez les points suivants
(source : https://it434ksu.files.wordpress.com/2012/09/lab1.pdf )

• désigne le processus ou la méthode qui permet d'extraire ou d'exploiter des


connaissances ou des modèles intéressants à partir de grandes quantités de
données
(a) Le data mining est apparu en raison de la grande disponibilité d'énormes quantités de
données et du besoin imminent de transformer ces données en informations et
connaissances utiles. Le data mining peut donc être considéré comme le résultat de
l'évolution naturelle des technologies de l'information.
(b) Le data mining est plus qu'une simple transformation de la technologie développée à partir
des bases de données, des statistiques et de l'apprentissage automatique. Il s'agit plutôt
d'une intégration que d'une simple transformation.
(c) L'exploration de données découle de la présence d'une énorme quantité de données.
a. Le nettoyage des données, un processus qui supprime ou transforme le bruit et les
données incohérentes - L'intégration des données, où plusieurs sources de données
peuvent être combinées
b. Sélection des données, où les données pertinentes pour la tâche d'analyse sont
extraites de la base de données
c. La transformation des données, où les données sont transformées ou consolidées
dans des formes appropriées pour l'exploitation minière.
d. L'exploration de données, un processus essentiel dans lequel des méthodes
intelligentes et efficaces sont appliquées afin d'extraire des modèles.
e. L'évaluation des modèles, un processus qui identifie les modèles vraiment
intéressants représentant la connaissance sur la base de certaines mesures
d'intérêt.
f. Présentation des connaissances, où les techniques de visualisation et de
représentation des connaissances sont utilisées pour présenter les connaissances
extraites à l'utilisateur.
a. Selon vous, lequel de ces deux modèles se généralisera le mieux aux instances non contenues
dans l'ensemble de données ?

Le modèle 1 est plus susceptible de se généraliser au-delà de l'ensemble de données


d'apprentissage parce qu'il est plus simple et semble capturer un modèle réel dans les données.

b. Pensez-vous que le modèle que vous avez rejeté dans la partie (a) de cette question est
suradapté ou sous-adapté aux données ?

[......]

• On dit qu'un modèle est un bon modèle d'apprentissage automatique s'il


généralise correctement toute nouvelle donnée d'entrée provenant du
domaine du problème.
• Cela permet de faire des prédictions sur les données futures, que le modèle
de données n'a jamais vues.
• Supposons maintenant que nous voulions vérifier la qualité de l'apprentissage
et de la généralisation de notre modèle d'apprentissage automatique aux
nouvelles données.
• Pour cela, nous avons deux cas : l'overfitting et l'underfitting, qui sont les
principaux responsables des mauvaises performances des algorithmes
d'apprentissage automatique.
Deux concepts importants
• Biais : hypothèses formulées par un modèle pour faciliter l'apprentissage d'une fonction.
• Variance : Si vous entraînez vos données sur des données d'entraînement et
que vous obtenez une erreur très faible, lorsque vous changez les données et
que vous entraînez ensuite le même modèle précédent, vous obtenez une
erreur élevée, il s'agit de la variance.

Le sous-ajustement détruit la précision de notre modèle d'apprentissage automatique.


• Cela se produit généralement lorsque nous disposons de moins de données
pour construire un modèle précis et lorsque nous essayons de construire un
modèle linéaire avec moins de données non linéaires.
Sous-ajustement : Biais élevé et variance faible
Pour éviter un sous-ajustement :
• en utilisant plus de données ;
• réduire les caractéristiques par la sélection des caractéristiques ;
• éliminer le bruit des données.
• Augmentez le nombre d'époques ou la durée de la formation pour obtenir de
meilleurs résultats.
• Augmenter la complexité du modèle

Surajustement : Lorsqu'un modèle est formé à partir d'une grande quantité de


données, il commence à apprendre à partir du bruit et des données inexactes de
notre ensemble de données.
• le modèle ne catégorise pas correctement les données, en raison d'un trop grand
nombre de détails et de bruits.
• nous l'entraînons avec un grand
nombre de données. Surajustement :
Variance élevée et biais faible Pour éviter
le surajustement
• Un algorithme linéaire si nous avons des données linéaires ou en utilisant les
paramètres comme la profondeur maximale si nous utilisons des arbres de
décision.
• Augmenter les données de formation.
• Réduire la complexité du modèle.
• Régularisation Ridge et régularisation Lasso
• Utiliser l'abandon pour les réseaux neuronaux afin de lutter contre l'ajustement excessif.

• Surajustement : Bonne performance sur les données d'apprentissage, mauvaise


généralisation à d'autres données.
• Insuffisance d'ajustement : Mauvaise performance sur
d'entraînement données d'entraînement et une
mauvaise généralisation à d'autres données

Réponse : Le modèle 2 est surajouté aux données. Toutes les règles de décision
de ce modèle qui prédisent OUTCOME= default sont spécifiques à des instances
uniques de l'ensemble de données. Le fait de baser les prédictions sur des
instances uniques indique que le modèle est surajusté.

11. cf. cours


12. L'AUC représente le degré de probabilité ou la mesure de séparabilité. Elle
indique dans quelle mesure le modèle est capable de faire la distinction entre les
classes. Plus la SSC est élevée, plus le modèle est capable de prédire les classes 0
comme 0 et les classes 1 comme 1.
La ROC est une courbe de probabilité et un graphique utilisés pour montrer la
capacité de diagnostic des classificateurs binaires.
La courbe ROC montre la relation entre le taux de faux positifs (FPR) et le
taux de vrais positifs (TPR) pour différents seuils de probabilité des
prédictions du modèle.
Précision vs AUC Précision
La précision est plus élevée si le modèle a plus de prédictions correctes. La
valeur de la précision va de 0 (aucune prédiction n'est correcte) à 1 (toutes
les prédictions sont correctes). Nous pouvons exprimer précision en
pourcentage, en multipliant la précision par 100.

L'un des inconvénients de la précision est qu'elle n'est pas capable d'utiliser
cette probabilité. Par exemple, il se peut qu'un modèle prédise à tort, avec
une faible probabilité ou confiance, certains échantillons, mais qu'un autre
modèle ait une confiance assez élevée et qu'il fasse des prédictions
inexactes.

Pour mesurer cela, nous utiliserons une autre technique populaire appelée AUC.
Pour les ensembles de données déséquilibrés, il est préférable d'utiliser
l'AUC plutôt que la précision. Il est également recommandé d'utiliser le
score F1.

La mesure AUC est recommandée car elle utilise la probabilité des


prédictions.
Par exemple, supposons que nous disposons de deux modèles de classification
binaire A et B qui ont une précision de 95 %. Le modèle A prédit toutes les
classes classées avec exactitude avec une probabilité d'environ 60 %, tandis
que le modèle B a une probabilité de plus de 90 % pour certaines classes
classées avec exactitude. Il est clair que les modèles ont la même précision,
mais le modèle B est plus convaincant dans sa prédiction.
13. cf cours
Qualité des données : actualité, validité et unicité

2. Excel, R, ....
3. cf cours
4.
Le lissage des données consiste à utiliser un algorithme pour éliminer le bruit
d'un ensemble de données. Cela permet de faire ressortir plus clairement les
schémas importants.
Étape 1 : La profondeur des cases étant de 3, chaque case contiendra 3 valeurs.
Comme nous avons 27 valeurs au total, il y aura 9 cases.

BIN 1 : 13,15,16
BIN 2 : 16,19,20
BIN 3 : 20,21,22
CASE 4 : 22,25,25
BAC 5 : 25,25,30
BIN 6 : 33,33,35
BIN 7 : 35,35,35
BAC 8 : 36,40,45
CASE 9 : 46,52,70
Étape 2 : Chaque valeur de la case est remplacée par la moyenne cette case.
EMPLACEMENT 1 : 14,67,14,67,14,67
CASE 2 : 18.33,18.33,18.33
BIN 3 : 21,21,21
BIN 4 : 24,24,24
CASE 5 : 26.67,26.67,26.67
CASE 6 : 33.67,33.67,33.67
BIN 7 : 35,35,35
BIN 8 : 40.33,40.33,40.33
CASE 9 : 56,56,56
Dans le lissage par moyenne des cases, chaque valeur d'une case est
remplacée par la valeur moyenne de la case. En général, plus la largeur est
grande, plus l'effet du lissage est important.

b) Comment pouvez-vous déterminer les valeurs aberrantes dans les données ?


Réponse : 1) Analyse par Boxplot : le point individuel représenté au-delà d'certain
seuil (1,5*IQR).
2) Par le biais de diagrammes de dispersion : Les valeurs aberrantes sont clairement
visibles sur ce graphique.
3) Par le biais du regroupement : Les valeurs aberrantes peuvent
détectées par regroupement, lorsque des valeurs similaires sont organisées en
groupe ou en grappe.

c) Quelles sont les autres méthodes de lissage des


données ? Ans : Le lissage des données peut être
effectué par :
1) Mise en binôme
2) Régression
3) Analyse des valeurs aberrantes

5.
La normalisation est généralement nécessaire lorsque nous traitons des attributs à
une échelle différente
[0.0, 1.0] ou [ -1.0, 1.0 ].

Min-Max-Mise à l'échelle

On suppose que l'attribut min est 20 et 'attribut max est 80 et que l'intervalle est
[0.0, 1.0] alors la nouvelle valeur issue de 'attribut 25 est v=0+(1-0) * (25-20) / (80-
20)

score z

X=(25-50)/25*25
Échelle décimale

où j est le plus petit entier tel que max(|vi'|)<1.


Ingénierie des fonctionnalités
• Normalisation
• Discrétisation : https://towardsdatascience.com/feature-engineering- deep-
dive-into-encoding-and-binning-techniques-5618d55a6b38

ALGORITHMES
k-means clustering

• 03 grappes
• A1=(2,10), A2=(2,5), A3=(8,4), A4=(5,8), A5=(7,5), A6=(6,4), A7=(1,2),
A8=(4,9)
• Centroïdes : A1, A4 et A7

d(a,b) désigne la distance euclidienne entre a et b. Elle est obtenue


directement à partir de la matrice de distance ou calculée comme suit :

Centroïdes : seed1=A1=(2,10), seed2=A4=(5,8), seed3=A7=(1,2)


Centroïdes des nouveaux clusters

Dessiner un espace 10 sur 10 avec tous les 8 points et montrer les clusters
après la première itération et les nouveaux centroïdes
Après la deuxième itération,
• Les resultats seront : 1 : {A1, A8}, 2 : {A3, A4, A5, A6}, 3 : {A2, A7} avec les
centres C1=(3, 9.5), C2=(6.5, 5.25) et C3=(1.5, 3.5).
Après la troisième itération,
• Les resultats seront 1 : {A1, A4, A8}, 2 : {A3, A5, A6}, 3 : {A2, A7} avec les
centres C1=(3.66, 9), C2=(7, 4.33) et C3=(1.5, 3.5).
Regroupement hiérarchique

Clustering [src :https://towardsdatascience.com/hierarchical-clustering- and-


its-applications-41c1ad4441a6]
• Le clustering est l'une des techniques les plus connues en Data Science.
• Utilisations : Segmentation de la clientèle, détection des valeurs aberrantes
• Le clustering est l'extraction de regroupements naturels d'objets de données
similaires.
Groupes de sénateurs républicains et démocrates
Contraintes :
• Les clusters doivent apparaître naturellement dans les données.
• Le clustering doit découvrir des modèles cachés dans les données.
• Les points de données au sein du cluster doivent être similaires.
• Les points de données dans deux clusters différents ne doivent pas être
similaires.
Exemples : K-Means, DBSCAN, Modèles de mélange gaussien

Clustering hiérarchique
Le clustering hiérarchique repose sur l'utilisation de ces techniques de
clustering pour trouver une hiérarchie de clusters, où cette hiérarchie ressemble à
une structure arborescente, appelée dendrogramme.
• La décomposition hiérarchique des données en fonction des
similarités de groupe

Deux méthodes
• Le clustering agglomératif utilise une approche ascendante, dans
laquelle chaque point de données commence dans son propre cluster.
Ces clusters sont ensuite fusionnés gloutonnement, en regroupant les
deux clusters les plus similaires et en les fusionnant. Ainsi jusqu'à ce qu'il
n'y ait qu'un seul cluster.
• Le clustering par division utilise une approche descendante, dans
laquelle tous les points de données commencent dans le même
cluster. On peut ensuite utiliser un algorithme de clustering
paramétrique comme K-Means pour diviser le cluster en deux clusters.
Pour chaque cluster, on le divise ensuite en deux clusters jusqu'à ce qu'on
atteigne le nombre de clusters souhaité.
• Ces deux approches reposent sur la construction d'une matrice de
similarité entre tous les points de données, qui est généralement
calculée par les méthodes de distance euclidienne, cosinus, Jaccard...

Méthodes de calcul de distance [src : Lien]


Distance euclidienne

Distance de Manhattan

Distance cosinus

Applications du clustering hiérarchique

Les pandas géants sont-ils plus proches des


ours ou des ratons laveurs ?
Rep : Arbre phylogénétique de l'évolution
animale
Les pandas géants plus proches des ours
Suivi des virus à travers des arbres
phylogénétiques.
Pouvons-nous trouver l'origine d'une
épidémie virale ?

Le brin de VIH de la victime s'est avéré


plus similaire au brin du patient accusé,
par rapport à un groupe témoin.

V1-3 sont les brins de la victime, P1-3 sont ceux du patient accusé et
LA1-12 sont le groupe témoin
Une étude similaire a également été
menée pour trouver l'animal qui a
transmis le virus du SARS aux humains :

Ainsi, les humains ont attrapé le virus du


SRAS par les civettes des palmiers

Source : Lien

Clustering agglomératif [src : lien] Greedy algorithm

N.B :
• Il ne regarde que l'état actuel et fait du mieux qu'il peut à ce stade et ne
regarde pas vers l'avenir pour voir si un autre choix serait meilleur à long
terme.
• Si on joint deux éléments dans le même groupe dès le début, on ne peut pas
déterminer si un cluster qui se développe plus tard, est en fait plus proche de
l'un des éléments. Pour cette raison, on ne peut jamais " mélanger " et
remettre un élément dans un meilleur groupe.
Problème :
• Un problème avec l'algorithme survient lorsqu'il y a deux paires qui pourraient
être fusionnées à un stade particulier.
• Une seule paire est fusionnée - généralement la paire qui est la première
dans la matrice de données.
• Une fois cette paire fusionnée, la matrice de distance est mise à jour et il est
possible que la deuxième paire ne soit plus la plus proche.
• Si on a choisi l'autre paire en premier, on peut obtenir une séquence de
regroupement différente. Ce n'est généralement pas un gros problème, mais
cela pourrait l'être si cela se produit tôt.

Définition de la distance de cluster : la fonction de liaison (linkage)


• Plus on fusionne, plus les points deviennent des groupes de points. Il faut
donc une méthode pour calculer la distance inter-cluster.

Soient deux clusters CI et C2 avec des éléments xij où i est le cluster et j est l'élément
du cluster. D(C1, C2) est fonction des distances f{d(x1j,x2k)}.

Les clusters à liaison unique examinent toutes les distances par paires entre les
éléments des deux clusters et prennent la distance entre les clusters comme
distance minimale.
La liaison complète (complete linkage), qui est plus populaire, prend la
distance maximale.
Le couplage moyen prend la moyenne, ce qui, en fin de compte, est assez similaire
au couplage complet.
La liaison centroïde est similaire à la liaison moyenne, mais au lieu d'utiliser la
distance moyenne, elle crée un nouvel élément qui est la moyenne de tous les
éléments individuels, puis utilise la distance entre les moyennes.
Simple (semblable à une chaîne, longue) :
f=min(d(x,y)) Complet (semblable à une boule,
compact) : f=max(d(x,y)) Moyen (semblable à une
boule, compact) : f=moyen(d(x,y))
Centroïde (sphérique, compact) : d(ave(X),ave(Y)) où nous prenons la moyenne sur
tous les éléments de chaque groupe

EXEMPLE AVEC LIAISON COMPLETE

MATRICE INITIALE DE DISTANCE

• La plus petite distance est comprise entre trois et cinq et ils sont d'abord liés
ou fusionnés dans un cluster "35".
Pour obtenir la nouvelle matrice de distance, nous devons supprimer les
entrées 3 et 5, et la remplacer par une entrée "35". Puisque on utilise un clustering
de liaison complet, la distance entre "35" et tous les autres éléments est le
maximum de la distance entre cet élément et 3 et cet élément et 5. Par exemple,
d(1,3)= 3 et d(1 ,5)=11. Donc, D(1, "35")=11. Cela nous donne la nouvelle matrice de
distance. Les éléments avec la plus petite distance sont ensuite regroupés. Ce sera
2 et 4.

35 24 1
35 0
24 10 0
1 11 9 0
En continuant ainsi, après 6 étapes, tout est regroupé. Ceci est résumé ci- dessous.
Sur ce graphique, l'axe des ordonnées indique la distance entre les objets au
moment où ils ont été regroupés. C'est ce qu'on appelle la hauteur du cluster.
Différentes visualisations utilisent différentes mesures de hauteur de cluster.

LE MEME EXEMPLE AVEC UNE SIMPLE LIAISON

• Il commence par le cluster "35" mais la distance entre "35" et chaque élément
est maintenant le minimum de d(x,3) et d(x,5). Donc c(1, "35")=3. Quelle sera
la prochaine matrice ?

Détermination des clusters

L'un des problèmes du clustering hiérarchique est qu'il n'existe aucun moyen objectif
de dire combien de clusters il y a.
• Si nous coupons l'arbre de liaison unique au point indiqué ci-dessous, nous
dirions qu'il y a deux clusters.

• Cependant, si nous coupons l'arbre plus bas, nous pourrions dire qu'il y a un
cluster et deux singletons.

Il n'y a pas de manière communément admise de décider où couper l'arbre.

EXEMPLE AVEC LIAISON CENTROID


Lien
EXERCICE SUR LA FICHE
LIEN SIMPLE

AB C D
AB 0
C 2 0
D 5 3 0

ABC D
ABC 0
D 3 0

LIEN COMPLET

AB C D
AB 0
C 4 0
D 6 3 0

AB CD
AB 0
CD 6 0

Association
TID Poste A Poste B Poste C Poste D
T1 1 0 1 14
T2 0 0 6 0
T3 1 0 2 4
T4 0 0 4 0
T5 0 0 3 1
T6 0 0 1 13
T7 0 0 8 0
T8 4 0 0 7
T9 0 1 1 10
T10 0 0 0 18

Ensembl s Confiance (->)


e
d'élément
s
A 0.30
B 0.10
C 0.80
D 0.70
AB 0.00 0
AC 0.20 2/3
AD 0.30 3/3=1
BC 0.10 1/1=1
BD 0.10 1/1=1
CD 0.50 5/8
ABC A- 0.00 0
>BC
AB->C
C->AB
B->AC
BC->A
AC->B
ABD 0.00
ACD 0.20
BCD 0.10
ABCD 0.00

En supposant que le seuil du support est 0.2 en se referrant a cette metrique

• C→ A
• A→ D
• D→ A
• C→ D
• D→ C
• A,C→ D
• A,D→ C
• C,D→ A

TID A B C D E F
T1 1 0 1 1 0 0
T2 0 1 0 1 0 0
T3 1 1 1 0 1 0
T4 0 1 0 1 0 1

Supmin= 50
• Les ensembles d'éléments candidats en C2 sont présentés ci-dessous C1
Ensemble supp(X)
d'éléments
X
A 50%
B 75%
C 50%
D 75%
E 25%
F 25%

L1
Ensemble supp(X)
d'éléments
X
A 50%
B 75%
C 50%
D 75%
E 25%
F 25%

k-2
C2
Ensemble supp(X)
d'éléments
X
{A,B} 25%
{A,C} 50%
{A,D} 25%
{B,C} 25%
{B,D} 50%
{C,D} 25%

Les items fréquents en L2 sont indiqués ci-dessous

Ensemble supp(X)
d'éléments
X
{A,C} 50%
{B,D} 50%

TID A B C D E
T1 1 1 1 0 0
T2 1 1 1 1 1
T3 1 0 1 1 0
T4 1 0 1 1 1
T5 1 1 1 1 0
minsupport= 40%

L1
C1
Ensemble d'éléments X supp(X)
Ensemble d'éléments X supp(X)
A 100%
A 100%
B 60%
B 60%
C 100%
C 100%
D 80%
D 80%
E 40%
E 40%
Tous les items sont fréquents
C2 L2
Ensemble supp(X) Ensemble supp(X)
d'éléments d'éléments
X X
A, B 60% A, B 60%
A, C 100% A, C 100%
A, D 80% A, D 80%
A, E 40% A, E 40%
B,C 60% B,C 60%
B,D 40% B,D 40%
B,E 20% C,D 80%
C,D 80% C,E 40%
C,E 40% D,E 40%
D,E 40%
C3 L3

Tous sont frequents

C4 L4

Ensemble
d'éléments X
supp(X)
A,B,C,D 40%
A, C, D, E 40%
Tous sont frequents

K=5 On ne peut plus continuer car la


condition K-2 éléments en commun ne
peut plus être respectes.

Les deux sont fréquents


Association Génération des Règles

On garde les règlesEnsemble


qui ont une supp(X)
confiance supérieure à la confiance minimale
Ensemble supp(X)
d'éléments d'éléments
A, B, C, D X X
join AB A, B, C 60% join AB A, B, C 60%
A, B -> C, D
avec AC avec AC
A-> B, C, D
join AB A, B, D 40% join AB A, B, D 40%
A, B, C-> D
avec AD avec AD
C,D -> A,B
..... joindre A, B, E ? join AC A, C, D 80%
AB à AE avec AD
join AC A, C, D 80% join AC A, C, E 40%
avec AD avec AE
join AC A, C, E 40% join AD A, D, E 40%
avec AE avec AE
join AD avec A, D, E 40% join BC B, C, D 40%
AE avec BD
join BC B, C, D 40% join CD C, D, E 40%
avec BD avec CE
joindre le CD C, D, E 40%
avec CE

Ensemble supp(X)
d'éléments
X
combiner ABC A, B, C, D 40%
avec ABD
combine ACD A, C, D, E 40%
avec ACE
Approches probabilistes

Nous devons calculer P(yes|E) et P(no|E) et les comparer.

Par conséquent, le classificateur Naïve Bayes prédit buys_computer=yes pour le nouvel


exemple age<=30, income=medium, student=yes, credit-rating=fair
Arbres de décision [Src : lien]

H(S)=-(11/16) log2(11/16) - (5/16) log2(5/16=0,896

Création de la racine de l'arbre I(p,


n)= I(11,5) = 0.896

E(S, A1) = H(S) - ( P(Matin) x H(Matin) + P(Après-midi)xH(Après-midi)+


P(Nuit)xH(Nuit) )

P(Matin)= 2/16 H(Matin)= -(2/2) log2(2/2) - (0/2) log2(0/2) = 0 P(Après-


midi)=11/16 H(Après-midi)= -(7/11) log2(7/11) - (4/11) log2(4/11) =
P(Nuit)= 3/16 H(Nuit) = -(2/3) log2(2/3) - (1/3) log2(1/3) =
fiplit by attribute A2="I'4atch type" S t -
"Naster"
pt=3, n1= 3, I( p2,n1)=I( 3,3)= 1

S2- "Grand siam"


p2=6, n2= 1, I(p2,n2)=I(6, 1)= 0.59 1

S3="Amical"
p3=2, n3= 1, I(p3, n3)= t(2,1)= 0,918

Ainsi, E(A2)= 6/16*I(3,3)+ 7/ 16*I(6,1)+ 3/16 "I(2, 1)= 0,806

Répartition par attribut A3="Surface du


court" 51="Gazon"
p1=4, n1=0, I(pi ,n1)=I(4,0)=0

S2="Argile
p2-2, n2 -3, I(p2,n2) -I(2,3)- 0.97

S3="Dur"
p3-5, n3 -0, I(p3, n3}- I(5,0) -0

S4="Nixed
p4=0, n4= 2, I( p4, n4)= 1(0, 2)= 0

Diviser par attribut A4="Best Effoet"


1 ... ,.
pt=9, n1=4, J(p1,n 1)=I(9,4)=o.89

S2="0"
p2=2, n2= 1, I( p2,n2)=I( 2,1)= 0.918

Ainsi, E(A4)= 13/1ó*J(9,4)+ 3/16 "I(2, 1)= 0.895

Puisque E(A3) est le plus petit, le gain d'information lié à l'utilisation de A3


pour scinder serait maximal. Nous utilisons donc l'attribut A3="Surface de la
cour" pour scinder à la racine de l'arbre de décision. L'arbre de décision actuel est
le suivant :
2] Séparer la première branche "Court surfgce=Grass"
Données d'entraînement
L'heure
surface Effort
Matin'^9 Naster L'herbe 1 F
Après-midi Grand chelem L'herbe 1 F
Matin Maître L'herbe 1 F
Après-midi Maître L'herbe 1 F

Cela conduit toujours au résultat "F" pour l'aEEribut choisi pour le partage.
L'arbre de décision se présente donc comme suit :

3) Bplit la branche "Court sui face hand"

Données d'entraînement

L'heure Cour Le Résultats


surface meilleur
Effort
Nuit Convivialité Dur O F
Après-midi Grand chelem Dur 1 F
Après-midi Grand chelem Dur 1 F
Nuit Convivialité Hara o F
Après-midi Grand chelem Dur 1 F

Cela conduit toujours au résultat Ehe "F" pour les attributs whiche'ver étant
choisi de scinder. L'arbre de décision se présente donc sous la forme suivante :
Données d'entraînement

L'heure Type de Cour Le Résultats


trappe surface meilleur
Effort
Après-midi Convivialité fixe 0 N
Nuit Maître f-1ixed 1 N

Cela conduit toujours au résultat "N" pour n'importe quel attribut choisi pour la
répartition. L'arbre de décision se présente donc sous la forme suivante :

Données d'entraînement

L'heure Type I*Tatch Le Résultats


meilleur
Effort
Grand sla m 1 F
Après-midi Maître 1 N
Après-midi Gra nd sla m 1 N
Après-midi f'4aster 1 N
Après-midi Grand chelem 1
A ce : I(p,n)= (2,3)=0.97, p+ n=5

Attribut de déversement At="T\me"


S1="Matin"
p1=0, n1=O, I(p2,n1)=I(O,O)=O

S2="Après-midi"
p2=2, n2= 3, I(p2,n2) =I(2,3)= 0.97

S3="NghM
p@=0, n3=0, I(pJ, n3)=0

Ainsi, E(AI)= 5/5 "I( 2,3)= O. 97

Fractionnement par attribut A2="I'4atch type"


S1="Maître"
p1=0, n1 - 2, I( pt ,n1)=I(0,2)=0

S2- "Grand chelem"


p2=2, n2= 1, I( p2,n2)=t( 2,1)= 0. 9L8

S3- "Friendly" (Amical)


p3=0, n3=0, I( p3, n3)= I(0,0)= 0

Ainsi, E(A2)= 3/5*I(2,1)= 0.55

Division par attribut A4="Best Effort" (meilleur effort)


S1="1"
pt=2, n1= 3, I(p1,n1)=I(2,3)=O.97

S2= "0"
p2=0, n2=0, I( p2,n2)=I(0,0)= 0 Donc,

E(A4)= 5/5 "I( 2,3)= 0.97

Comme E(A2) est le plus bas, nous scindons la branche en utilisant l'attribut
A2="Type de correspondance", en étendant l'arbre de décision comme le
montre la figure suivante
FrJcndl

Nous n'avons pas de données d'entraînement pour les matchs amicaux, donc la
décision pour le cas (surface du court="CIay", maFch type="Friendty") est
inconnue (le gagnant peut être Nadale ou Federera avec une probabilité de
0.5).

Pour les correspondances de type Naster, tous les échantillons


montrent que Nadale est le gagnant, nous créons donc une feuille
avec l'étiquette N" pour cette branche.

6} Diviser la branche "Mqtch type=Grand slam"

L'heure Résultats

Arrernoon
Après-midi N
Après-midi F

Pour les matchs de type Grand Chelem, Federera gagne 2 matchs sur 3 dans
l'ensemble de données de formation. Nous continuons à diviser ce nœud
en utilisant l'attribut restant "Temps" ("Meilleur effort" sera toujours 1 dans cette
branche), L'arbre de décision final est :
PERFORMANCE

Exercice 1

Matrice de confusion
Exercice sur le credit card

La sortie du modèle 1
La sortie du modèle 2
Positif= vrai, Négatif= bon
Modele 1 : seuil 0.51
Mauvais Bon
Mauvais
Bon
Calcul TPR et FPR Modele

1 : seuil 0.43

Mauvais Bon
Mauvais
Bon

Calcul TPR et FPR

Pareil pour le Modele 2


Exercices additionnels

_ "l'argent, l'argent, l'argent"


_ "de l'argent gratuit pour s'amuser"
_ "jouer pour le plaisir"
_ "l'apprentissage automatique pour le plaisir, le plaisir, le plaisir"
_ "l'apprentissage automatique gratuit"

a) 1NN

Le plus proche voisin est l'instance d5, pour lequel SPAM= false

b) 3NN

Les plus proches voisins sont d5, d3, et d2. La majorité donne SPAM= true

c) 5-NN base sur la pondération de l'inverse de la distance euclidienne au


carré entre le voisin et la requête
Le poids total pour le SPAM = true niveau est de 0,0769 + 0,1667 + 0,2 = 0,4436. Le poids total pour
le SPAM = false est de 0,1 + 1 = 1,1. Par conséquent, le SPAM = false a le poids maximum, et c'est la
prédiction renvoyée par le modèle.

d) 3-NN avec distance Manhattan

La Majorité est d5, d4, et d3. La majorité donne SPAM= false.

Vous aimerez peut-être aussi