0% ont trouvé ce document utile (0 vote)

84 vues41 pages

Data Science Correction - Copy - Final - Copie FR

Le document traite de la science des données et de l'apprentissage automatique, en expliquant des concepts clés tels que l'apprentissage supervisé et non supervisé, ainsi que des algorithmes comme l'algorithme d'Apriori pour l'extraction de règles d'association. Il aborde également des notions de surajustement et de sous-ajustement des modèles, ainsi que des techniques d'évaluation comme la courbe ROC et l'AUC. Enfin, il présente des méthodes de nettoyage et de normalisation des données, ainsi que des techniques de clustering comme le k-means et le clustering hiérarchique.

Transféré par

Joseph Fidekna Ngaïtouang

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

84 vues41 pages

Data Science Correction - Copy - Final - Copie FR

Transféré par

Joseph Fidekna Ngaïtouang

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

SÉANCE 'EXPLICATIONS D'EXERCICES

Science des données : Science permettant de traiter de grandes quantités de

données structurées ou non structurées afin d'obtenir des informations précieuses
sur l'entreprise et de faciliter la prise de décision.
Apprentissage automatique : domaine d'étude qui donne aux ordinateurs la
capacité d'apprendre sans être explicitement programmés.
La connaissance : Il s'agit de l'ensemble des modèles obtenus après l'apprentissage
exploité pour généraliser les données.
L'importance de la science des données aujourd'hui

• Extraire de la valeur des données

• Améliorer la prise de décision
• Applications à divers domaines
Apprentissage supervisé ou non supervisé
L'apprentissage automatique supervisé repose sur des données d'entrée et de sortie
étiquetées, tandis que l'apprentissage non supervisé traite des données brutes ou
non étiquetées.
Supervisé (classification, régression)

• Arbre de décision, régression logistique, régression linéaire, machine à vecteur

de support
Non supervisé (regroupement, association, réduction de la dimension)

• clustering k-means, clustering hiérarchique et algorithme apriori

Source : https://tinyurl.com/2p9x2eba
Pourquoi appelle-t-on Bayes naïf ?
car il suppose que chaque variable d'entrée est indépendante.

• Il s'agit d'une hypothèse forte et irréaliste pour les données réelles ; cependant, la
technique est très efficace pour un large éventail de problèmes complexes.

L'algorithme que nous avons utilisé pour l'extraction des règles d'association est
l'algorithme d'Apriori. Cet algorithme est efficace parce qu'il s'appuie sur la propriété
d'Apriori et l'exploite. Qu'est-ce que la propriété d'Apriori ?

La propriété Apriori stipule que si un ensemble d'éléments est fréquent, tous ses sous-
ensembles doivent l'être également.
Qu'est-ce que le data mining ? Dans votre réponse, abordez les points suivants
(source : https://it434ksu.files.wordpress.com/2012/09/lab1.pdf )

• désigne le processus ou la méthode qui permet d'extraire ou d'exploiter des

connaissances ou des modèles intéressants à partir de grandes quantités de
données
(a) Le data mining est apparu en raison de la grande disponibilité d'énormes quantités de
données et du besoin imminent de transformer ces données en informations et
connaissances utiles. Le data mining peut donc être considéré comme le résultat de
l'évolution naturelle des technologies de l'information.
(b) Le data mining est plus qu'une simple transformation de la technologie développée à partir
des bases de données, des statistiques et de l'apprentissage automatique. Il s'agit plutôt
d'une intégration que d'une simple transformation.
(c) L'exploration de données découle de la présence d'une énorme quantité de données.
a. Le nettoyage des données, un processus qui supprime ou transforme le bruit et les
données incohérentes - L'intégration des données, où plusieurs sources de données
peuvent être combinées
b. Sélection des données, où les données pertinentes pour la tâche d'analyse sont
extraites de la base de données
c. La transformation des données, où les données sont transformées ou consolidées
dans des formes appropriées pour l'exploitation minière.
d. L'exploration de données, un processus essentiel dans lequel des méthodes
intelligentes et efficaces sont appliquées afin d'extraire des modèles.
e. L'évaluation des modèles, un processus qui identifie les modèles vraiment
intéressants représentant la connaissance sur la base de certaines mesures
d'intérêt.
f. Présentation des connaissances, où les techniques de visualisation et de
représentation des connaissances sont utilisées pour présenter les connaissances
extraites à l'utilisateur.
a. Selon vous, lequel de ces deux modèles se généralisera le mieux aux instances non contenues
dans l'ensemble de données ?

Le modèle 1 est plus susceptible de se généraliser au-delà de l'ensemble de données

d'apprentissage parce qu'il est plus simple et semble capturer un modèle réel dans les données.

b. Pensez-vous que le modèle que vous avez rejeté dans la partie (a) de cette question est
suradapté ou sous-adapté aux données ?

[......]

• On dit qu'un modèle est un bon modèle d'apprentissage automatique s'il

généralise correctement toute nouvelle donnée d'entrée provenant du
domaine du problème.
• Cela permet de faire des prédictions sur les données futures, que le modèle
de données n'a jamais vues.
• Supposons maintenant que nous voulions vérifier la qualité de l'apprentissage
et de la généralisation de notre modèle d'apprentissage automatique aux
nouvelles données.
• Pour cela, nous avons deux cas : l'overfitting et l'underfitting, qui sont les
principaux responsables des mauvaises performances des algorithmes
d'apprentissage automatique.
Deux concepts importants
• Biais : hypothèses formulées par un modèle pour faciliter l'apprentissage d'une fonction.
• Variance : Si vous entraînez vos données sur des données d'entraînement et
que vous obtenez une erreur très faible, lorsque vous changez les données et
que vous entraînez ensuite le même modèle précédent, vous obtenez une
erreur élevée, il s'agit de la variance.

Le sous-ajustement détruit la précision de notre modèle d'apprentissage automatique.

• Cela se produit généralement lorsque nous disposons de moins de données
pour construire un modèle précis et lorsque nous essayons de construire un
modèle linéaire avec moins de données non linéaires.
Sous-ajustement : Biais élevé et variance faible
Pour éviter un sous-ajustement :
• en utilisant plus de données ;
• réduire les caractéristiques par la sélection des caractéristiques ;
• éliminer le bruit des données.
• Augmentez le nombre d'époques ou la durée de la formation pour obtenir de
meilleurs résultats.
• Augmenter la complexité du modèle

Surajustement : Lorsqu'un modèle est formé à partir d'une grande quantité de

données, il commence à apprendre à partir du bruit et des données inexactes de
notre ensemble de données.
• le modèle ne catégorise pas correctement les données, en raison d'un trop grand
nombre de détails et de bruits.
• nous l'entraînons avec un grand
nombre de données. Surajustement :
Variance élevée et biais faible Pour éviter
le surajustement
• Un algorithme linéaire si nous avons des données linéaires ou en utilisant les
paramètres comme la profondeur maximale si nous utilisons des arbres de
décision.
• Augmenter les données de formation.
• Réduire la complexité du modèle.
• Régularisation Ridge et régularisation Lasso
• Utiliser l'abandon pour les réseaux neuronaux afin de lutter contre l'ajustement excessif.

• Surajustement : Bonne performance sur les données d'apprentissage, mauvaise

généralisation à d'autres données.
• Insuffisance d'ajustement : Mauvaise performance sur
d'entraînement données d'entraînement et une
mauvaise généralisation à d'autres données

Réponse : Le modèle 2 est surajouté aux données. Toutes les règles de décision
de ce modèle qui prédisent OUTCOME= default sont spécifiques à des instances
uniques de l'ensemble de données. Le fait de baser les prédictions sur des
instances uniques indique que le modèle est surajusté.

11. cf. cours

12. L'AUC représente le degré de probabilité ou la mesure de séparabilité. Elle
indique dans quelle mesure le modèle est capable de faire la distinction entre les
classes. Plus la SSC est élevée, plus le modèle est capable de prédire les classes 0
comme 0 et les classes 1 comme 1.
La ROC est une courbe de probabilité et un graphique utilisés pour montrer la
capacité de diagnostic des classificateurs binaires.
La courbe ROC montre la relation entre le taux de faux positifs (FPR) et le
taux de vrais positifs (TPR) pour différents seuils de probabilité des
prédictions du modèle.
Précision vs AUC Précision
La précision est plus élevée si le modèle a plus de prédictions correctes. La
valeur de la précision va de 0 (aucune prédiction n'est correcte) à 1 (toutes
les prédictions sont correctes). Nous pouvons exprimer précision en
pourcentage, en multipliant la précision par 100.

L'un des inconvénients de la précision est qu'elle n'est pas capable d'utiliser
cette probabilité. Par exemple, il se peut qu'un modèle prédise à tort, avec
une faible probabilité ou confiance, certains échantillons, mais qu'un autre
modèle ait une confiance assez élevée et qu'il fasse des prédictions
inexactes.

Pour mesurer cela, nous utiliserons une autre technique populaire appelée AUC.
Pour les ensembles de données déséquilibrés, il est préférable d'utiliser
l'AUC plutôt que la précision. Il est également recommandé d'utiliser le
score F1.

La mesure AUC est recommandée car elle utilise la probabilité des

prédictions.
Par exemple, supposons que nous disposons de deux modèles de classification
binaire A et B qui ont une précision de 95 %. Le modèle A prédit toutes les
classes classées avec exactitude avec une probabilité d'environ 60 %, tandis
que le modèle B a une probabilité de plus de 90 % pour certaines classes
classées avec exactitude. Il est clair que les modèles ont la même précision,
mais le modèle B est plus convaincant dans sa prédiction.
13. cf cours
Qualité des données : actualité, validité et unicité

2. Excel, R, ....
3. cf cours
4.
Le lissage des données consiste à utiliser un algorithme pour éliminer le bruit
d'un ensemble de données. Cela permet de faire ressortir plus clairement les
schémas importants.
Étape 1 : La profondeur des cases étant de 3, chaque case contiendra 3 valeurs.
Comme nous avons 27 valeurs au total, il y aura 9 cases.

BIN 1 : 13,15,16
BIN 2 : 16,19,20
BIN 3 : 20,21,22
CASE 4 : 22,25,25
BAC 5 : 25,25,30
BIN 6 : 33,33,35
BIN 7 : 35,35,35
BAC 8 : 36,40,45
CASE 9 : 46,52,70
Étape 2 : Chaque valeur de la case est remplacée par la moyenne cette case.
EMPLACEMENT 1 : 14,67,14,67,14,67
CASE 2 : 18.33,18.33,18.33
BIN 3 : 21,21,21
BIN 4 : 24,24,24
CASE 5 : 26.67,26.67,26.67
CASE 6 : 33.67,33.67,33.67
BIN 7 : 35,35,35
BIN 8 : 40.33,40.33,40.33
CASE 9 : 56,56,56
Dans le lissage par moyenne des cases, chaque valeur d'une case est
remplacée par la valeur moyenne de la case. En général, plus la largeur est
grande, plus l'effet du lissage est important.

b) Comment pouvez-vous déterminer les valeurs aberrantes dans les données ?

Réponse : 1) Analyse par Boxplot : le point individuel représenté au-delà d'certain
seuil (1,5*IQR).
2) Par le biais de diagrammes de dispersion : Les valeurs aberrantes sont clairement
visibles sur ce graphique.
3) Par le biais du regroupement : Les valeurs aberrantes peuvent
détectées par regroupement, lorsque des valeurs similaires sont organisées en
groupe ou en grappe.

c) Quelles sont les autres méthodes de lissage des

données ? Ans : Le lissage des données peut être
effectué par :
1) Mise en binôme
2) Régression
3) Analyse des valeurs aberrantes

5.
La normalisation est généralement nécessaire lorsque nous traitons des attributs à
une échelle différente
[0.0, 1.0] ou [ -1.0, 1.0 ].

Min-Max-Mise à l'échelle

On suppose que l'attribut min est 20 et 'attribut max est 80 et que l'intervalle est
[0.0, 1.0] alors la nouvelle valeur issue de 'attribut 25 est v=0+(1-0) * (25-20) / (80-
20)

score z

X=(25-50)/25*25
Échelle décimale

où j est le plus petit entier tel que max(|vi'|)<1.

Ingénierie des fonctionnalités
• Normalisation
• Discrétisation : https://towardsdatascience.com/feature-engineering- deep-
dive-into-encoding-and-binning-techniques-5618d55a6b38

ALGORITHMES
k-means clustering

• 03 grappes
• A1=(2,10), A2=(2,5), A3=(8,4), A4=(5,8), A5=(7,5), A6=(6,4), A7=(1,2),
A8=(4,9)
• Centroïdes : A1, A4 et A7

d(a,b) désigne la distance euclidienne entre a et b. Elle est obtenue

directement à partir de la matrice de distance ou calculée comme suit :

Centroïdes : seed1=A1=(2,10), seed2=A4=(5,8), seed3=A7=(1,2)

Centroïdes des nouveaux clusters

Dessiner un espace 10 sur 10 avec tous les 8 points et montrer les clusters
après la première itération et les nouveaux centroïdes
Après la deuxième itération,
• Les resultats seront : 1 : {A1, A8}, 2 : {A3, A4, A5, A6}, 3 : {A2, A7} avec les
centres C1=(3, 9.5), C2=(6.5, 5.25) et C3=(1.5, 3.5).
Après la troisième itération,
• Les resultats seront 1 : {A1, A4, A8}, 2 : {A3, A5, A6}, 3 : {A2, A7} avec les
centres C1=(3.66, 9), C2=(7, 4.33) et C3=(1.5, 3.5).
Regroupement hiérarchique

Clustering [src :https://towardsdatascience.com/hierarchical-clustering- and-

its-applications-41c1ad4441a6]
• Le clustering est l'une des techniques les plus connues en Data Science.
• Utilisations : Segmentation de la clientèle, détection des valeurs aberrantes
• Le clustering est l'extraction de regroupements naturels d'objets de données
similaires.
Groupes de sénateurs républicains et démocrates
Contraintes :
• Les clusters doivent apparaître naturellement dans les données.
• Le clustering doit découvrir des modèles cachés dans les données.
• Les points de données au sein du cluster doivent être similaires.
• Les points de données dans deux clusters différents ne doivent pas être
similaires.
Exemples : K-Means, DBSCAN, Modèles de mélange gaussien

Clustering hiérarchique
Le clustering hiérarchique repose sur l'utilisation de ces techniques de
clustering pour trouver une hiérarchie de clusters, où cette hiérarchie ressemble à
une structure arborescente, appelée dendrogramme.
• La décomposition hiérarchique des données en fonction des
similarités de groupe

Deux méthodes
• Le clustering agglomératif utilise une approche ascendante, dans
laquelle chaque point de données commence dans son propre cluster.
Ces clusters sont ensuite fusionnés gloutonnement, en regroupant les
deux clusters les plus similaires et en les fusionnant. Ainsi jusqu'à ce qu'il
n'y ait qu'un seul cluster.
• Le clustering par division utilise une approche descendante, dans
laquelle tous les points de données commencent dans le même
cluster. On peut ensuite utiliser un algorithme de clustering
paramétrique comme K-Means pour diviser le cluster en deux clusters.
Pour chaque cluster, on le divise ensuite en deux clusters jusqu'à ce qu'on
atteigne le nombre de clusters souhaité.
• Ces deux approches reposent sur la construction d'une matrice de
similarité entre tous les points de données, qui est généralement
calculée par les méthodes de distance euclidienne, cosinus, Jaccard...

Méthodes de calcul de distance [src : Lien]

Distance euclidienne

Distance de Manhattan

Distance cosinus

Applications du clustering hiérarchique

Les pandas géants sont-ils plus proches des

ours ou des ratons laveurs ?
Rep : Arbre phylogénétique de l'évolution
animale
Les pandas géants plus proches des ours
Suivi des virus à travers des arbres
phylogénétiques.
Pouvons-nous trouver l'origine d'une
épidémie virale ?

Le brin de VIH de la victime s'est avéré

plus similaire au brin du patient accusé,
par rapport à un groupe témoin.

V1-3 sont les brins de la victime, P1-3 sont ceux du patient accusé et
LA1-12 sont le groupe témoin
Une étude similaire a également été
menée pour trouver l'animal qui a
transmis le virus du SARS aux humains :

Ainsi, les humains ont attrapé le virus du

SRAS par les civettes des palmiers

Source : Lien

Clustering agglomératif [src : lien] Greedy algorithm

N.B :
• Il ne regarde que l'état actuel et fait du mieux qu'il peut à ce stade et ne
regarde pas vers l'avenir pour voir si un autre choix serait meilleur à long
terme.
• Si on joint deux éléments dans le même groupe dès le début, on ne peut pas
déterminer si un cluster qui se développe plus tard, est en fait plus proche de
l'un des éléments. Pour cette raison, on ne peut jamais " mélanger " et
remettre un élément dans un meilleur groupe.
Problème :
• Un problème avec l'algorithme survient lorsqu'il y a deux paires qui pourraient
être fusionnées à un stade particulier.
• Une seule paire est fusionnée - généralement la paire qui est la première
dans la matrice de données.
• Une fois cette paire fusionnée, la matrice de distance est mise à jour et il est
possible que la deuxième paire ne soit plus la plus proche.
• Si on a choisi l'autre paire en premier, on peut obtenir une séquence de
regroupement différente. Ce n'est généralement pas un gros problème, mais
cela pourrait l'être si cela se produit tôt.

Définition de la distance de cluster : la fonction de liaison (linkage)

• Plus on fusionne, plus les points deviennent des groupes de points. Il faut
donc une méthode pour calculer la distance inter-cluster.

Soient deux clusters CI et C2 avec des éléments xij où i est le cluster et j est l'élément
du cluster. D(C1, C2) est fonction des distances f{d(x1j,x2k)}.

Les clusters à liaison unique examinent toutes les distances par paires entre les
éléments des deux clusters et prennent la distance entre les clusters comme
distance minimale.
La liaison complète (complete linkage), qui est plus populaire, prend la
distance maximale.
Le couplage moyen prend la moyenne, ce qui, en fin de compte, est assez similaire
au couplage complet.
La liaison centroïde est similaire à la liaison moyenne, mais au lieu d'utiliser la
distance moyenne, elle crée un nouvel élément qui est la moyenne de tous les
éléments individuels, puis utilise la distance entre les moyennes.
Simple (semblable à une chaîne, longue) :
f=min(d(x,y)) Complet (semblable à une boule,
compact) : f=max(d(x,y)) Moyen (semblable à une
boule, compact) : f=moyen(d(x,y))
Centroïde (sphérique, compact) : d(ave(X),ave(Y)) où nous prenons la moyenne sur
tous les éléments de chaque groupe

EXEMPLE AVEC LIAISON COMPLETE

MATRICE INITIALE DE DISTANCE

• La plus petite distance est comprise entre trois et cinq et ils sont d'abord liés
ou fusionnés dans un cluster "35".
Pour obtenir la nouvelle matrice de distance, nous devons supprimer les
entrées 3 et 5, et la remplacer par une entrée "35". Puisque on utilise un clustering
de liaison complet, la distance entre "35" et tous les autres éléments est le
maximum de la distance entre cet élément et 3 et cet élément et 5. Par exemple,
d(1,3)= 3 et d(1 ,5)=11. Donc, D(1, "35")=11. Cela nous donne la nouvelle matrice de
distance. Les éléments avec la plus petite distance sont ensuite regroupés. Ce sera
2 et 4.

35 24 1
35 0
24 10 0
1 11 9 0
En continuant ainsi, après 6 étapes, tout est regroupé. Ceci est résumé ci- dessous.
Sur ce graphique, l'axe des ordonnées indique la distance entre les objets au
moment où ils ont été regroupés. C'est ce qu'on appelle la hauteur du cluster.
Différentes visualisations utilisent différentes mesures de hauteur de cluster.

LE MEME EXEMPLE AVEC UNE SIMPLE LIAISON

• Il commence par le cluster "35" mais la distance entre "35" et chaque élément
est maintenant le minimum de d(x,3) et d(x,5). Donc c(1, "35")=3. Quelle sera
la prochaine matrice ?

Détermination des clusters

L'un des problèmes du clustering hiérarchique est qu'il n'existe aucun moyen objectif
de dire combien de clusters il y a.
• Si nous coupons l'arbre de liaison unique au point indiqué ci-dessous, nous
dirions qu'il y a deux clusters.

• Cependant, si nous coupons l'arbre plus bas, nous pourrions dire qu'il y a un
cluster et deux singletons.

Il n'y a pas de manière communément admise de décider où couper l'arbre.

EXEMPLE AVEC LIAISON CENTROID

Lien
EXERCICE SUR LA FICHE
LIEN SIMPLE

AB C D
AB 0
C 2 0
D 5 3 0

ABC D
ABC 0
D 3 0

LIEN COMPLET

AB C D
AB 0
C 4 0
D 6 3 0

AB CD
AB 0
CD 6 0

Association
TID Poste A Poste B Poste C Poste D
T1 1 0 1 14
T2 0 0 6 0
T3 1 0 2 4
T4 0 0 4 0
T5 0 0 3 1
T6 0 0 1 13
T7 0 0 8 0
T8 4 0 0 7
T9 0 1 1 10
T10 0 0 0 18

Ensembl s Confiance (->)

e
d'élément
s
A 0.30
B 0.10
C 0.80
D 0.70
AB 0.00 0
AC 0.20 2/3
AD 0.30 3/3=1
BC 0.10 1/1=1
BD 0.10 1/1=1
CD 0.50 5/8
ABC A- 0.00 0
>BC
AB->C
C->AB
B->AC
BC->A
AC->B
ABD 0.00
ACD 0.20
BCD 0.10
ABCD 0.00

En supposant que le seuil du support est 0.2 en se referrant a cette metrique

• C→ A
• A→ D
• D→ A
• C→ D
• D→ C
• A,C→ D
• A,D→ C
• C,D→ A

TID A B C D E F
T1 1 0 1 1 0 0
T2 0 1 0 1 0 0
T3 1 1 1 0 1 0
T4 0 1 0 1 0 1

Supmin= 50
• Les ensembles d'éléments candidats en C2 sont présentés ci-dessous C1
Ensemble supp(X)
d'éléments
X
A 50%
B 75%
C 50%
D 75%
E 25%
F 25%

L1
Ensemble supp(X)
d'éléments
X
A 50%
B 75%
C 50%
D 75%
E 25%
F 25%

k-2
C2
Ensemble supp(X)
d'éléments
X
{A,B} 25%
{A,C} 50%
{A,D} 25%
{B,C} 25%
{B,D} 50%
{C,D} 25%

Les items fréquents en L2 sont indiqués ci-dessous

Ensemble supp(X)
d'éléments
X
{A,C} 50%
{B,D} 50%

TID A B C D E
T1 1 1 1 0 0
T2 1 1 1 1 1
T3 1 0 1 1 0
T4 1 0 1 1 1
T5 1 1 1 1 0
minsupport= 40%

L1
C1
Ensemble d'éléments X supp(X)
Ensemble d'éléments X supp(X)
A 100%
A 100%
B 60%
B 60%
C 100%
C 100%
D 80%
D 80%
E 40%
E 40%
Tous les items sont fréquents
C2 L2
Ensemble supp(X) Ensemble supp(X)
d'éléments d'éléments
X X
A, B 60% A, B 60%
A, C 100% A, C 100%
A, D 80% A, D 80%
A, E 40% A, E 40%
B,C 60% B,C 60%
B,D 40% B,D 40%
B,E 20% C,D 80%
C,D 80% C,E 40%
C,E 40% D,E 40%
D,E 40%
C3 L3

Tous sont frequents

C4 L4

Ensemble
d'éléments X
supp(X)
A,B,C,D 40%
A, C, D, E 40%
Tous sont frequents

K=5 On ne peut plus continuer car la

condition K-2 éléments en commun ne
peut plus être respectes.

Les deux sont fréquents

Association Génération des Règles

On garde les règlesEnsemble

qui ont une supp(X)
confiance supérieure à la confiance minimale
Ensemble supp(X)
d'éléments d'éléments
A, B, C, D X X
join AB A, B, C 60% join AB A, B, C 60%
A, B -> C, D
avec AC avec AC
A-> B, C, D
join AB A, B, D 40% join AB A, B, D 40%
A, B, C-> D
avec AD avec AD
C,D -> A,B
..... joindre A, B, E ? join AC A, C, D 80%
AB à AE avec AD
join AC A, C, D 80% join AC A, C, E 40%
avec AD avec AE
join AC A, C, E 40% join AD A, D, E 40%
avec AE avec AE
join AD avec A, D, E 40% join BC B, C, D 40%
AE avec BD
join BC B, C, D 40% join CD C, D, E 40%
avec BD avec CE
joindre le CD C, D, E 40%
avec CE

Ensemble supp(X)
d'éléments
X
combiner ABC A, B, C, D 40%
avec ABD
combine ACD A, C, D, E 40%
avec ACE
Approches probabilistes

Nous devons calculer P(yes|E) et P(no|E) et les comparer.

Par conséquent, le classificateur Naïve Bayes prédit buys_computer=yes pour le nouvel

exemple age<=30, income=medium, student=yes, credit-rating=fair
Arbres de décision [Src : lien]

H(S)=-(11/16) log2(11/16) - (5/16) log2(5/16=0,896

Création de la racine de l'arbre I(p,

n)= I(11,5) = 0.896

E(S, A1) = H(S) - ( P(Matin) x H(Matin) + P(Après-midi)xH(Après-midi)+

P(Nuit)xH(Nuit) )

P(Matin)= 2/16 H(Matin)= -(2/2) log2(2/2) - (0/2) log2(0/2) = 0 P(Après-

midi)=11/16 H(Après-midi)= -(7/11) log2(7/11) - (4/11) log2(4/11) =
P(Nuit)= 3/16 H(Nuit) = -(2/3) log2(2/3) - (1/3) log2(1/3) =
fiplit by attribute A2="I'4atch type" S t -
"Naster"
pt=3, n1= 3, I( p2,n1)=I( 3,3)= 1

S2- "Grand siam"

p2=6, n2= 1, I(p2,n2)=I(6, 1)= 0.59 1

S3="Amical"
p3=2, n3= 1, I(p3, n3)= t(2,1)= 0,918

Ainsi, E(A2)= 6/16I(3,3)+ 7/ 16I(6,1)+ 3/16 "I(2, 1)= 0,806

Répartition par attribut A3="Surface du

court" 51="Gazon"
p1=4, n1=0, I(pi ,n1)=I(4,0)=0

S2="Argile
p2-2, n2 -3, I(p2,n2) -I(2,3)- 0.97

S3="Dur"
p3-5, n3 -0, I(p3, n3}- I(5,0) -0

S4="Nixed
p4=0, n4= 2, I( p4, n4)= 1(0, 2)= 0

Diviser par attribut A4="Best Effoet"

1 ... ,.
pt=9, n1=4, J(p1,n 1)=I(9,4)=o.89

S2="0"
p2=2, n2= 1, I( p2,n2)=I( 2,1)= 0.918

Ainsi, E(A4)= 13/1ó*J(9,4)+ 3/16 "I(2, 1)= 0.895

Puisque E(A3) est le plus petit, le gain d'information lié à l'utilisation de A3

pour scinder serait maximal. Nous utilisons donc l'attribut A3="Surface de la
cour" pour scinder à la racine de l'arbre de décision. L'arbre de décision actuel est
le suivant :
2] Séparer la première branche "Court surfgce=Grass"
Données d'entraînement
L'heure
surface Effort
Matin'^9 Naster L'herbe 1 F
Après-midi Grand chelem L'herbe 1 F
Matin Maître L'herbe 1 F
Après-midi Maître L'herbe 1 F

Cela conduit toujours au résultat "F" pour l'aEEribut choisi pour le partage.
L'arbre de décision se présente donc comme suit :

3) Bplit la branche "Court sui face hand"

Données d'entraînement

L'heure Cour Le Résultats

surface meilleur
Effort
Nuit Convivialité Dur O F
Après-midi Grand chelem Dur 1 F
Après-midi Grand chelem Dur 1 F
Nuit Convivialité Hara o F
Après-midi Grand chelem Dur 1 F

Cela conduit toujours au résultat Ehe "F" pour les attributs whiche'ver étant
choisi de scinder. L'arbre de décision se présente donc sous la forme suivante :
Données d'entraînement

L'heure Type de Cour Le Résultats

trappe surface meilleur
Effort
Après-midi Convivialité fixe 0 N
Nuit Maître f-1ixed 1 N

Cela conduit toujours au résultat "N" pour n'importe quel attribut choisi pour la
répartition. L'arbre de décision se présente donc sous la forme suivante :

Données d'entraînement

L'heure Type I*Tatch Le Résultats

meilleur
Effort
Grand sla m 1 F
Après-midi Maître 1 N
Après-midi Gra nd sla m 1 N
Après-midi f'4aster 1 N
Après-midi Grand chelem 1
A ce : I(p,n)= (2,3)=0.97, p+ n=5

Attribut de déversement At="T\me"

S1="Matin"
p1=0, n1=O, I(p2,n1)=I(O,O)=O

S2="Après-midi"
p2=2, n2= 3, I(p2,n2) =I(2,3)= 0.97

S3="NghM
p@=0, n3=0, I(pJ, n3)=0

Ainsi, E(AI)= 5/5 "I( 2,3)= O. 97

Fractionnement par attribut A2="I'4atch type"

S1="Maître"
p1=0, n1 - 2, I( pt ,n1)=I(0,2)=0

S2- "Grand chelem"

p2=2, n2= 1, I( p2,n2)=t( 2,1)= 0. 9L8

S3- "Friendly" (Amical)

p3=0, n3=0, I( p3, n3)= I(0,0)= 0

Ainsi, E(A2)= 3/5*I(2,1)= 0.55

Division par attribut A4="Best Effort" (meilleur effort)

S1="1"
pt=2, n1= 3, I(p1,n1)=I(2,3)=O.97

S2= "0"
p2=0, n2=0, I( p2,n2)=I(0,0)= 0 Donc,

E(A4)= 5/5 "I( 2,3)= 0.97

Comme E(A2) est le plus bas, nous scindons la branche en utilisant l'attribut
A2="Type de correspondance", en étendant l'arbre de décision comme le
montre la figure suivante
FrJcndl

Nous n'avons pas de données d'entraînement pour les matchs amicaux, donc la
décision pour le cas (surface du court="CIay", maFch type="Friendty") est
inconnue (le gagnant peut être Nadale ou Federera avec une probabilité de
0.5).

Pour les correspondances de type Naster, tous les échantillons

montrent que Nadale est le gagnant, nous créons donc une feuille
avec l'étiquette N" pour cette branche.

6} Diviser la branche "Mqtch type=Grand slam"

L'heure Résultats

Arrernoon
Après-midi N
Après-midi F

Pour les matchs de type Grand Chelem, Federera gagne 2 matchs sur 3 dans
l'ensemble de données de formation. Nous continuons à diviser ce nœud
en utilisant l'attribut restant "Temps" ("Meilleur effort" sera toujours 1 dans cette
branche), L'arbre de décision final est :
PERFORMANCE

Exercice 1

Matrice de confusion
Exercice sur le credit card

La sortie du modèle 1
La sortie du modèle 2
Positif= vrai, Négatif= bon
Modele 1 : seuil 0.51
Mauvais Bon
Mauvais
Bon
Calcul TPR et FPR Modele

1 : seuil 0.43

Mauvais Bon
Mauvais
Bon

Calcul TPR et FPR

Pareil pour le Modele 2

Exercices additionnels

_ "l'argent, l'argent, l'argent"

_ "de l'argent gratuit pour s'amuser"
_ "jouer pour le plaisir"
_ "l'apprentissage automatique pour le plaisir, le plaisir, le plaisir"
_ "l'apprentissage automatique gratuit"

a) 1NN

Le plus proche voisin est l'instance d5, pour lequel SPAM= false

b) 3NN

Les plus proches voisins sont d5, d3, et d2. La majorité donne SPAM= true

c) 5-NN base sur la pondération de l'inverse de la distance euclidienne au

carré entre le voisin et la requête
Le poids total pour le SPAM = true niveau est de 0,0769 + 0,1667 + 0,2 = 0,4436. Le poids total pour
le SPAM = false est de 0,1 + 1 = 1,1. Par conséquent, le SPAM = false a le poids maximum, et c'est la
prédiction renvoyée par le modèle.

d) 3-NN avec distance Manhattan

La Majorité est d5, d4, et d3. La majorité donne SPAM= false.

Vous aimerez peut-être aussi

Chapitre - MachineLearning - Arbre de Decison
Pas encore d'évaluation
Chapitre - MachineLearning - Arbre de Decison
31 pages
Examen ML: Classification et Préparation
Pas encore d'évaluation
Examen ML: Classification et Préparation
6 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
25 pages
Machine Learning Process
Pas encore d'évaluation
Machine Learning Process
10 pages
Cours Sur Les Généralités Du Machine Learning
Pas encore d'évaluation
Cours Sur Les Généralités Du Machine Learning
12 pages
Classification Et Évaluation
Pas encore d'évaluation
Classification Et Évaluation
52 pages
Cours ML Mounira
100% (1)
Cours ML Mounira
131 pages
Data - Science - Chap4 - 1 - Machine - Learning - Preliminaires FR
Pas encore d'évaluation
Data - Science - Chap4 - 1 - Machine - Learning - Preliminaires FR
42 pages
TP 1 - Exercice 1
Pas encore d'évaluation
TP 1 - Exercice 1
4 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
83 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
16 pages
Introduction à l'apprentissage automatique
100% (1)
Introduction à l'apprentissage automatique
53 pages
Évaluation des Modèles de Machine Learning
Pas encore d'évaluation
Évaluation des Modèles de Machine Learning
16 pages
TD Machine Learning
Pas encore d'évaluation
TD Machine Learning
39 pages
Ahmed Yassine Metkoul
Pas encore d'évaluation
Ahmed Yassine Metkoul
7 pages
Cours Complet ML Mory - (Partie 1)
Pas encore d'évaluation
Cours Complet ML Mory - (Partie 1)
91 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
6 pages
Ss 1
Pas encore d'évaluation
Ss 1
6 pages
Data Science Entreprise p111-118
Pas encore d'évaluation
Data Science Entreprise p111-118
8 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
29 pages
ML Modèle
Pas encore d'évaluation
ML Modèle
9 pages
2 - Types D'apprentissage Automatique
Pas encore d'évaluation
2 - Types D'apprentissage Automatique
15 pages
Introduction à l'Apprentissage Automatique
Pas encore d'évaluation
Introduction à l'Apprentissage Automatique
36 pages
Notes D'étude Pour Réussir Votre Entretien en Science Des Données
Pas encore d'évaluation
Notes D'étude Pour Réussir Votre Entretien en Science Des Données
7 pages
TD1 Chapitres 1 & 2 : Module: Machine Learning Licence: RIOT Enseignante: Dr. Rym Besrour
Pas encore d'évaluation
TD1 Chapitres 1 & 2 : Module: Machine Learning Licence: RIOT Enseignante: Dr. Rym Besrour
3 pages
Chapitre6 Evaluation
Pas encore d'évaluation
Chapitre6 Evaluation
27 pages
Introduction à l'Apprentissage Automatique
Pas encore d'évaluation
Introduction à l'Apprentissage Automatique
4 pages
Cours 1
Pas encore d'évaluation
Cours 1
4 pages
Apprentissage Supervisé 1-2
Pas encore d'évaluation
Apprentissage Supervisé 1-2
21 pages
L'apprentissage Automatique Octobre 2024
Pas encore d'évaluation
L'apprentissage Automatique Octobre 2024
61 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
11 pages
Introduction au Machine Learning et IA
Pas encore d'évaluation
Introduction au Machine Learning et IA
20 pages
Algorithmes d'apprentissage non supervisé en marketing
Pas encore d'évaluation
Algorithmes d'apprentissage non supervisé en marketing
29 pages
Introduction à l'apprentissage supervisé
100% (1)
Introduction à l'apprentissage supervisé
429 pages
Cours
Pas encore d'évaluation
Cours
575 pages
Rapport of Machine Learning
Pas encore d'évaluation
Rapport of Machine Learning
63 pages
L Apprentissage Machine
Pas encore d'évaluation
L Apprentissage Machine
46 pages
Défis et Solutions en Apprentissage Automatique
Pas encore d'évaluation
Défis et Solutions en Apprentissage Automatique
38 pages
Introduction au Data Mining et Classifieurs
100% (10)
Introduction au Data Mining et Classifieurs
14 pages
Introduction à l'Apprentissage Profond
Pas encore d'évaluation
Introduction à l'Apprentissage Profond
59 pages
Concepts de Base en Apprentissage Automatique
Pas encore d'évaluation
Concepts de Base en Apprentissage Automatique
37 pages
Méthodes d'apprentissage machine expliquées
Pas encore d'évaluation
Méthodes d'apprentissage machine expliquées
53 pages
Tout Ou Rien
Pas encore d'évaluation
Tout Ou Rien
12 pages
ML Modèles
Pas encore d'évaluation
ML Modèles
9 pages
Chapitre II Machine Learning
Pas encore d'évaluation
Chapitre II Machine Learning
170 pages
Introduction à la Classification Statistique
Pas encore d'évaluation
Introduction à la Classification Statistique
164 pages
Steps To Complete A Machine Learning
Pas encore d'évaluation
Steps To Complete A Machine Learning
11 pages
IA Appliquée pour Ingénieurs GE
Pas encore d'évaluation
IA Appliquée pour Ingénieurs GE
42 pages
Cours 2 IA App
Pas encore d'évaluation
Cours 2 IA App
22 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
25 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
161 pages
Types d'apprentissage machine expliqués
Pas encore d'évaluation
Types d'apprentissage machine expliqués
25 pages
Corrigé Examen Data Mining 2019
Pas encore d'évaluation
Corrigé Examen Data Mining 2019
3 pages
Cours - Article Machine Learning
Pas encore d'évaluation
Cours - Article Machine Learning
102 pages
1.4.4 Variables Non Pertinentes
Pas encore d'évaluation
1.4.4 Variables Non Pertinentes
10 pages
Notions Requis
Pas encore d'évaluation
Notions Requis
17 pages
TPEMR
Pas encore d'évaluation
TPEMR
1 page
Examen Optimisation 2022 Session 1
Pas encore d'évaluation
Examen Optimisation 2022 Session 1
1 page
TRAVAIL PERSONNEL DE L'ETUDIANT Groupe 3 HH
Pas encore d'évaluation
TRAVAIL PERSONNEL DE L'ETUDIANT Groupe 3 HH
1 page
Partie II Opti A Base Population
Pas encore d'évaluation
Partie II Opti A Base Population
8 pages
Plan Du TPE SMA-1
Pas encore d'évaluation
Plan Du TPE SMA-1
8 pages
Examen Optimisation 2021 Session 2
Pas encore d'évaluation
Examen Optimisation 2021 Session 2
1 page
FIPA-ACL : Communication pour agents
Pas encore d'évaluation
FIPA-ACL : Communication pour agents
23 pages
Tests Statistiques de Comparaison
Pas encore d'évaluation
Tests Statistiques de Comparaison
1 page
Cours de Methodologie Et de Recherche
Pas encore d'évaluation
Cours de Methodologie Et de Recherche
46 pages
Examen Final en Statistique Descriptive
Pas encore d'évaluation
Examen Final en Statistique Descriptive
2 pages
Introduction À L'utilisation de EPI INFO
Pas encore d'évaluation
Introduction À L'utilisation de EPI INFO
5 pages
Interprétation SPSS
Pas encore d'évaluation
Interprétation SPSS
2 pages
Exposé de Analyse Et Interprétation Des Données Final
Pas encore d'évaluation
Exposé de Analyse Et Interprétation Des Données Final
32 pages
Clustering : Guide Essentiel et Applications
Pas encore d'évaluation
Clustering : Guide Essentiel et Applications
10 pages
Xlstat Aide
100% (2)
Xlstat Aide
596 pages
Modèle de régression multiple expliqué
Pas encore d'évaluation
Modèle de régression multiple expliqué
17 pages
Analyse biomécanique du lancer de javelot
Pas encore d'évaluation
Analyse biomécanique du lancer de javelot
2 pages
La Conception Et La Réalisation D'un Système Décisionnel
Pas encore d'évaluation
La Conception Et La Réalisation D'un Système Décisionnel
96 pages
Cours de Méthodologie de Recherche en Gestion
Pas encore d'évaluation
Cours de Méthodologie de Recherche en Gestion
67 pages
Guide Sphinx Plus² pour Stagiaires
Pas encore d'évaluation
Guide Sphinx Plus² pour Stagiaires
38 pages
Modélisation Statistique Robuste en Présence de Valeurs Aberrantes
Pas encore d'évaluation
Modélisation Statistique Robuste en Présence de Valeurs Aberrantes
96 pages
Corrigé Examen ProbaStat L2 GC
Pas encore d'évaluation
Corrigé Examen ProbaStat L2 GC
4 pages
Pfe GC 0296
Pas encore d'évaluation
Pfe GC 0296
88 pages
Analyse Des Données
Pas encore d'évaluation
Analyse Des Données
24 pages
Blue Doodle Project Presentation
Pas encore d'évaluation
Blue Doodle Project Presentation
20 pages
Fiche 3 ADD LNSG - Docx Koussa - Copie
Pas encore d'évaluation
Fiche 3 ADD LNSG - Docx Koussa - Copie
6 pages
Série de Révision Correction
Pas encore d'évaluation
Série de Révision Correction
5 pages
Systme de Navirè
Pas encore d'évaluation
Systme de Navirè
46 pages
Feuilletage
Pas encore d'évaluation
Feuilletage
30 pages
Analyse Des Données Recherche Qualitative
Pas encore d'évaluation
Analyse Des Données Recherche Qualitative
31 pages
Tuto 4-1 - Analyse Des Données Seance2
Pas encore d'évaluation
Tuto 4-1 - Analyse Des Données Seance2
2 pages
Module Snis Ok
Pas encore d'évaluation
Module Snis Ok
60 pages
Chapitre 3: Analyse en Composantes Principales (ACP) : Enseignante: Raghda Jouirou
Pas encore d'évaluation
Chapitre 3: Analyse en Composantes Principales (ACP) : Enseignante: Raghda Jouirou
33 pages
Epidexam 28oct2021 Eno+Cor Kao DPR
Pas encore d'évaluation
Epidexam 28oct2021 Eno+Cor Kao DPR
119 pages
Estimation et tests en économétrie
Pas encore d'évaluation
Estimation et tests en économétrie
4 pages
Analyse Multidimensionnelle Des Données Master I, Data Science
Pas encore d'évaluation
Analyse Multidimensionnelle Des Données Master I, Data Science
56 pages
Control
Pas encore d'évaluation
Control
1 page

Data Science Correction - Copy - Final - Copie FR

Transféré par

Data Science Correction - Copy - Final - Copie FR

Transféré par

SÉANCE 'EXPLICATIONS D'EXERCICES

Science des données : Science permettant de traiter de grandes quantités de

• Extraire de la valeur des données

• Arbre de décision, régression logistique, régression linéaire, machine à vecteur

• clustering k-means, clustering hiérarchique et algorithme apriori

• désigne le processus ou la méthode qui permet d'extraire ou d'exploiter des

Le modèle 1 est plus susceptible de se généraliser au-delà de l'ensemble de données

• On dit qu'un modèle est un bon modèle d'apprentissage automatique s'il

Le sous-ajustement détruit la précision de notre modèle d'apprentissage automatique.

Surajustement : Lorsqu'un modèle est formé à partir d'une grande quantité de

• Surajustement : Bonne performance sur les données d'apprentissage, mauvaise

11. cf. cours

La mesure AUC est recommandée car elle utilise la probabilité des

b) Comment pouvez-vous déterminer les valeurs aberrantes dans les données ?

c) Quelles sont les autres méthodes de lissage des

où j est le plus petit entier tel que max(|vi'|)<1.

d(a,b) désigne la distance euclidienne entre a et b. Elle est obtenue

Centroïdes : seed1=A1=(2,10), seed2=A4=(5,8), seed3=A7=(1,2)

Clustering [src :https://towardsdatascience.com/hierarchical-clustering- and-

Méthodes de calcul de distance [src : Lien]

Applications du clustering hiérarchique

Les pandas géants sont-ils plus proches des

Le brin de VIH de la victime s'est avéré

Ainsi, les humains ont attrapé le virus du

Clustering agglomératif [src : lien] Greedy algorithm

Définition de la distance de cluster : la fonction de liaison (linkage)

EXEMPLE AVEC LIAISON COMPLETE

MATRICE INITIALE DE DISTANCE

LE MEME EXEMPLE AVEC UNE SIMPLE LIAISON

Détermination des clusters

Il n'y a pas de manière communément admise de décider où couper l'arbre.

EXEMPLE AVEC LIAISON CENTROID

Ensembl s Confiance (->)

En supposant que le seuil du support est 0.2 en se referrant a cette metrique

Les items fréquents en L2 sont indiqués ci-dessous

Tous sont frequents

K=5 On ne peut plus continuer car la

Les deux sont fréquents

On garde les règlesEnsemble

Nous devons calculer P(yes|E) et P(no|E) et les comparer.

Par conséquent, le classificateur Naïve Bayes prédit buys_computer=yes pour le nouvel

H(S)=-(11/16) log2(11/16) - (5/16) log2(5/16=0,896

Création de la racine de l'arbre I(p,

E(S, A1) = H(S) - ( P(Matin) x H(Matin) + P(Après-midi)xH(Après-midi)+

P(Matin)= 2/16 H(Matin)= -(2/2) log2(2/2) - (0/2) log2(0/2) = 0 P(Après-

S2- "Grand siam"

Ainsi, E(A2)= 6/16*I(3,3)+ 7/ 16*I(6,1)+ 3/16 "I(2, 1)= 0,806

Répartition par attribut A3="Surface du

Diviser par attribut A4="Best Effoet"

Ainsi, E(A4)= 13/1ó*J(9,4)+ 3/16 "I(2, 1)= 0.895

Puisque E(A3) est le plus petit, le gain d'information lié à l'utilisation de A3

3) Bplit la branche "Court sui face hand"

L'heure Cour Le Résultats

L'heure Type de Cour Le Résultats

L'heure Type I*Tatch Le Résultats

Attribut de déversement At="T\me"

Ainsi, E(AI)= 5/5 "I( 2,3)= O. 97

Fractionnement par attribut A2="I'4atch type"

S2- "Grand chelem"

S3- "Friendly" (Amical)

Ainsi, E(A2)= 3/5*I(2,1)= 0.55

Division par attribut A4="Best Effort" (meilleur effort)

E(A4)= 5/5 "I( 2,3)= 0.97

Pour les correspondances de type Naster, tous les échantillons

6} Diviser la branche "Mqtch type=Grand slam"

Calcul TPR et FPR

Pareil pour le Modele 2

_ "l'argent, l'argent, l'argent"

c) 5-NN base sur la pondération de l'inverse de la distance euclidienne au

d) 3-NN avec distance Manhattan

La Majorité est d5, d4, et d3. La majorité donne SPAM= false.

Vous aimerez peut-être aussi

Ainsi, E(A2)= 6/16I(3,3)+ 7/ 16I(6,1)+ 3/16 "I(2, 1)= 0,806