Intelligence artificielle
Projet 3
Exercice 1
● Le nombre de noeuds : L’arbre de décision comporte 4 noeuds
● Le type de chaque noeud :
Outlook : noeud principal ou noeud racine
Sunny : noeud feuille ou noeud terminal
Overcast : noeud feuille ou noeud terminal
Rainy : noeud feuille ou noeud terminal
● définition des informations représentées sur l’arbre:
L’exercice représente un arbre de décision. Les nœuds de l’arbre représentent la probabilité d’aller
oui ou non dehors en fonction du temps qu’il fait: “sunny” (ensoleillé), “overcast” (couvert) ou
“rainy” (pluvieux). L’information représentée est la décision prise à chaque nœud de décision
(“yes” ou “no”).
● Calcul du gain
Le gain est calculé en utilisant l’une des mesures d’impureté suivantes: l’entropie, l’indice de Gini
ou l’erreur de classification. Nous allons effectuer le calcul à partir de l’entropie qui est plus
approprié dans notre cas. sa formule est:
Gain = E(outlook) - E’(outlook)
E(outlook) = - P(yes) x log2(P(yes)) - P(NO) x log2(P(NO))
Probabilité : P(yes)= (9/14)
Probabilité : P(NO)= (5/14)
E(outlook) = - (9/14) x log2((9/14)) - P(5/14) x log2(P(5/14)) = 94020,9402
E(outlook) = 0,9402
E’(outlook) = ( P(sunny) x E(sunny)) + ( P(overcast) x E(overcast)) + (P(rainy) x E(rainy))
Probabilité : P(sunny) = (5/14) Entrophie :E(sunny) = - (2/5) x log2(2/5)-(3/5) x log2(3/5)
Entrophie :E(sunny) = 0,9709
Probabilité : P(overcast) = (4/14) Entrophie :E(overcast)= - 1x log2(1)
Entrophie :E(overcast) = 0
Probabilité : P(rainy) = (5/14) Entrophie : E(rainy) = - (3/5) x log2(3/5)-(2/5) x log2(2/5)
Entrophie : E(rainy) = 0,9709
E’(outlook) = (5/14) x (0,9709) + (4/14) x (0) + (5/14) x (0,9709)
E’(outlook) = 0,6935
Gain = 0,9402 - 0,6935
Gain = 0,2467
Exercice 2
ID : variable catégorielle
Age : variable de ratio ou de rapport
Height : variable catégorielle
Nationality : variable catégorielle
Gender : variable binaire symétrique
● Calcul de la matrice de dissimilarité
ID Âge Height Nationality Gender
2311 35 Short Sudanese M
3653 50 Medium Jordanian F
5342 40 High Jordanian F
3498 34 Medium Italian M
Nous avons une combinaison de trois types de variables. On préconise une mesure de dissimilarité
mixte avec des variables de types différents en prenant en compte les différentes caractéristiques
et leurs types respectifs.
➔ Pour la variable “Âge” on traite f comme une variable ordinale continue, calculer les rif et
les zif et traiter les zif comme une variable d’échelle :
Pour la paire (2311,3653) : |35-50|/(50-34) = 0,9375
Pour la paire (2311,5342) : |35-40|/(50-34) = 0,3125
Pour la paire (2311,3498) : |35-34|/(50-34) = 0,0625
Pour la paire (3653,5342) : |50-40|/(50-34) = 0,625
Pour la paire (3653,3498) : |50-34|/(50-34) = 1,0
Pour la paire (5342,3498) : |40-34|/(50-34) = 0,375
➔ Calcul des différences binaires pour les variables binaire ou catégorielle, dij (f ) = 0 si xif =
xjf ; sinon d(f ) ij = 1.
Pour la variable “Height il y a trois niveaux différents, les différences normalisées sont :
● Pour la paire (2311, 3653) : 1 (les catégories sont différentes)
● Pour la paire (2311, 5342) : 1 (les catégories sont différentes)
● Pour la paire (2311, 3498) : 1 (les catégories sont différentes)
● Pour la paire (3653, 5342) : 1 (les catégories sont différentes)
● Pour la paire (3653, 3498) : 0 (les catégories sont identiques)
● Pour la paire (5342, 3498) : 1 (les catégories sont différentes)
Pour la variable "Nationality", nous avons les différences binaires suivantes :
● Pour la paire (2311, 3653) : 1 (les catégories sont différentes)
● Pour la paire (2311, 5342) : 1 (les catégories sont différentes)
● Pour la paire (2311, 3498) : 1 (les catégories sont différentes)
● Pour la paire (3653, 5342) : 0 (les catégories sont identiques)
● Pour la paire (3653, 3498) : 1 (les catégories sont différentes)
● Pour la paire (5342, 3498) : 1 (les catégories sont différentes)
Pour la variable “Gender” nous avons les différences binaires suivantes :
● Pour la paire (2311, 3653) : 1 (les catégories sont différentes)
● Pour la paire (2311, 5342) : 1 (les catégories sont différentes)
● Pour la paire (2311, 3498) : 0 (les catégories sont identiques)
● Pour la paire (3653, 5342) : 0 (les catégories sont identiques)
● Pour la paire (3653, 3498) : 1 (les catégories sont différentes)
● Pour la paire (5342, 3498) : 1 (les catégories sont différentes)
La dissimilarité d(i, j) entre deux objets i et j est définie comme suit :
La dissimilarité pour la paire (2311, 3653) : (0,9375+1+1+1)/4 = 0,9844
La dissimilarité pour la paire (2311, 5342) : ( 0,3125+1+1+1)/4 = 0,8281
La dissimilarité pour la paire (2311, 3498) : (0,0625+1+1+0)/4 = 0,5156
La dissimilarité pour la paire (3653, 5342) : (0,625+1+0+0)/4 = 0,4062
La dissimilarité pour la paire(3653, 3498) : (1+0+1+1)/4 =0,75
La dissimilarité pour la paire (5342, 3498) : (0,375+1+1+1)/4 = 0,8437
La matrice de dissimilarité devient :
ID 2311 3653 5342 3498
2311 0
3653 0,9844 0
5342 0,8281 0,4062 0
3498 0,5156 0,75 0,8437 0