0% ont trouvé ce document utile (0 vote)

96 vues35 pages

AnalysePredictive ArbreDécision

Ce document traite des analyses prédictives et de l'apprentissage automatique. Il présente notamment les concepts de data mining, d'apprentissage supervisé et non supervisé ainsi que différents algorithmes d'apprentissage comme les réseaux de neurones, la régression logistique et les arbres de décision.

Transféré par

فركوس محمد العيد

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

96 vues35 pages

AnalysePredictive ArbreDécision

Transféré par

فركوس محمد العيد

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Ferhat Abbes de Sétif 1

Master Intelligence artificielle et informatique fondamentale

ANALYSE PRÉDICTIVES
Dr. Drif Ahlem

1
Les analyses prédictives
Les analyses prédictives sont centrées autour des probabilités, pas d’un absolu.

Les analyses prédictives utilisent également de plus en plus le Data Mining et le Machine
Learning.

Le Data Mining, comme son nom l’indique, consiste à examiner de larges ensembles de
données afin de découvrir des patterns et de nouvelles informations.

Les innovations dans le domaine du Machine Learning comme les réseaux de

neurones ou les algorithmes de deep learning permettent quant à elle de
traiter les ensembles de données non structurées plus vite qu’un Data Scientist
traditionnel avec une précision supérieure à mesure que les algorithmes s’améliorent.

2
Apprentissage Automatique (Machine Learning)

L'apprentissage automatique ou apprentissage statistique est un champ d'étude de l'intelligence

artificielle qui se fonde sur des approches statistiques pour donner aux ordinateurs la capacité
d'apprendre à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches
sans être explicitement programmés pour chacune. Plus largement, il concerne la conception,
l'analyse, le développement et l'implémentation de telles méthodes.
 L'apprentissage supervisé :
(supervised learning) est une tâche d'apprentissage
automatique consistant à apprendre une fonction de
prédiction à partir d'exemples annotés, au contraire
de l'apprentissage non supervisé.
Les exemples annotés constituent une base d'apprentissage.
On suppose cette base d'apprentissage représentative d'une population
d'échantillons plus large et le but des méthodes d'apprentissage supervisé est
de bien généraliser, c'est-à-dire d'apprendre une fonction qui fasse des
prédictions correctes sur des données non présentes dans l'ensemble
d'apprentissage.
 Les exemples annotés constituent une base
d'apprentissage.
 On suppose cette base d'apprentissage représentative
d'une population d'échantillons plus large et le but
des méthodes d'apprentissage supervisé est de
bien généraliser, c'est-à-dire d'apprendre une fonction
qui fasse des prédictions correctes sur des données
non présentes dans l'ensemble d'apprentissage.
Apprentissage Automatique (Machine Learning)

Techniques d’apprentissage automatique:

Machine Learning
SUPERVISÈ Non SUPERVISÈ

Classification Regression Clustering Reduction des

dimension
7
Apprentissage Automatique(Machine Learning) 8

Exemple de Classification Exemple de Régression

Apprentissage Automatique(Machine Learning) 9

Les algorithme de L'apprentissage Automatique les plus populaire:

• Machine à vecteurs de support(SVM):introduit par Vladimir Vapink dans les années 1990, son
idée principale est de maximiser la marge entre les classes des données et de trouver la
meilleure séparation linéaire entre eux.

• Régression Logistique: est un modèle linéaire utilisé pour la classification (binaire et multi-
class) qui utilise la fonction logistique Sigmoid pour fournir une probabilité comme sortie.
• Arbre de décision:
Applications des Les modèles prédictifs
L’ARBRE DE DÉCISION
Définition d’Arbre de Décision
 Un arbre de décision est un outil d'aide à la décision représentant
un ensemble de choix sous la forme graphique d'un arbre.
 Les différentes décisions possibles sont situées aux extrémités des
branches (les « feuilles » de l'arbre), et sont atteints en fonction de
décisions prises à chaque étape.
 Il s'agit de plus d'une représentation calculable automatiquement
par des algorithmes d'apprentissage supervisé.
Exemple : Base d’apprentissage

 Pour Construire
numéro Forme un Taille
AD il faut avoir une
Couleur base
Classe
1 Rond Petit Bleu Oui
d’apprentissage
2 Carré Grand Rouge Non
3 Rond Petit Blanc Oui
4 Carré Petit Bleu Oui
5 Rond Grand Bleu Oui
6 Carré Grand Blanc Non
7 Carré Petit Blanc Oui
8 Carré Grand Bleu Non
9 Carré Petit Rouge Oui
10 Rond Grand Blanc Oui
construction d’un AD
 Pour construire un tel arbre ,plusieurs algorithme existent : ID3 ,CART,
C4.5, CHAID…


 ⇒ L’arbre est construit récursivement de haut en bas selon le principe «

Diviser pour Régner ».

 La différence principale entre ces algorithmes :



==> Mesure de sélection d’un attribut.

==> Critère de branchement (split).
 Mesure de sélection d’un attribut:

ID3, C4.5
Gain d’information.
CART
Indice Gini.
CHAID
Table de contingence statique.
 Les attributs sont sélectionner selon des heuristiques
ou statistique( gain d’information) . On choisit le
gain le plus grand.

 Avant de calculer le gain on calcule « Entropie » ou

bien La quantité d’information nécessaire

I(p,n)= - p/n log2 (p/n) – n/p log2 (n/p)

E(A)= ∑ ((pi+ni)/(p+n)) (I(pi,ni))

Le gain :
Gain(A)= I(p,n) – E(A).
Pré-élagage:

 Effectue lors de la construction de l'arbre.

 Lorsqu'on calcule les caractéristiques statistiques d'une partie

des données tel que le gain, on peut décider de l'importance
ou non de sa subdivision.

 Ainsi on coupe complètement des branches qui peuvent être

générée.
Post-élagage:
 Effectue après la construction de l'arbre en coupant des sous

arbres entiers et en les remplaçant par des feuilles représentant la

classe la plus fréquente dans l'ensemble des données de cet arbre.
 On commence de la racine et on descend, Pour chaque nœud

interne (non feuille), on mesure sa

complexité avant et après sa coupure (son remplacement par une
feuille).
 Si la différence est peu importante, on coupe le sous arbre et on le

remplace par une feuille.

Élagage

 AD construit peut être d'une taille très importante

épuisant les ressources de calcul et de stockage.

 La solution :élagage pour éliminer de l'AD les branches

les moins significatives (déduisant d'un min d'exemples
ou de appartenant a diff classes).

 Elagage est deux type avant ou après l'apprentissage (pré

et post-élagage).
Règles de classification
 Une règle est générée pour chaque chemin de l’arbre ( de la
racine à une feuille).

 Le paire attribut-valeur d’un chemin forment une conjonction.

 Le nœud terminale présente la classe prédit .

 Les règles sont généralement plus facile à comprendre que les

arbres.
Exemple Détaillé
Numéro Forme Taille Couleur Class
1 Rond Petit Bleu Oui
2 Carré Grand Rouge Non
3 Rond Petit Blanc Oui
4 Carré Petit Bleu Oui
5 Rond Grand Bleu Oui
6 Carré Grand Blanc Non
7 Carré Petit Blanc Oui
8 Carré Grand Bleu Non
9 Carré Petit Rouge Oui
10 Rond Grand Blanc Oui
 Pour construire l’arbre de décision selon la méthode
ID3 on doivent calculer le Gain pour chaque attribut.

 Scission n°1 (forme):

Oui Non
Rond 4 0
Carré 3 3
Total 7 3
 Entropie de cette scission:
IR(4,0)= - 4/4 log2 (4/4)- 0/4 log2 (0/4) = 0
IC(3,3)= - 3/6 log2 (3/6)- 3/6 log2 (3/6) = 1

IF(7,3)= - 7/10 log2 (7/10)- 3/10 log2 (3/10) = 0,88

E (forme)= 4/10 IR(4,0) + 6/10 IC(3,3) = 0,6

Gain(forme)= 0,88 - 0,6 = 0,28.
 Scission n°2 (taille):

Oui Non
Petit 5 0
Grand 2 3
Total 7 3

It(7,3)= - 7/10 log2 (7/10)- 3/10 log2 (3/10) =0,88

E (Taille)= 5/10 IP(5,0) + 5/10 IG(2,3) = 0,4855
Gain(forme)= 0,88 - 0,4855= 0.3957
 Scission n°3 (Couleur):
Oui Non
Bleu 3 1
Rouge 1 1
Blanc 3 1
Total 7 3

E(couleur)=4/10 IB(3,1) + 2/10 IR(1,1)+ 4/10 IBL(3,1)

=0,8488.
Gain(couleur)= 0,88 - 0,8488= 0,0324.
 Donc le plus grand Gain est : la scission Taille.
 La scission taille est le nœud racine de l’arbre.
 Les scission possibles pour le noeud fils généré par
affectation des nœuds F et C avec attribut Taille.
Oui Non
Rond 2 0
Carré 0 3
Total 2 3
 On va trouve que le meilleur gain est de F .
Le résultat:
taille
7: oui [70%]
3: non [30%]
petit grand

5: oui [100%] 2: oui [40%] forme

0: non [0%] 3: non [60%]

rond carré
2: oui [100%] 0: oui [0%]
0: non [0%] 3: non [100%]
 Les règle de classification sont :

Si (taille = petit) Alors OUI.

Si (taille = grand) ^ (forme = rond) Alors OUI.
Si (taille = grand) ^ (forme = carre) Alors NON.
Les aventages
 Facilité de mise en œuvre : un graphe simple à réaliser même si
la partie chiffrage nécessite une analyse précise.

 Facilité de prise de décision : modélisation des options

possibles, visualisation les différents scénarios.

 Simplification des décisions complexes : le mode graphique

permet de comparer de multiples chemins. Chaque nœud peut
être mis en perspective et chiffré parmi un ensemble
d'hypothèses.
Les limites

 Le chiffrage reposant sur des estimations, la

précision des chiffres joue un rôle primordial dans la
pertinence du modèle.

 Un arbre de décision ne prend pas en compte tous

les facteurs, notamment ceux reposant sur des
évaluations qualitatives.
Conclusion

 Cet outil constitue un outil de décision puissant, car

il permet d'étudier des scénarios chiffrés, de poser
une base de réflexion et de susciter des échanges
productifs.

Vous aimerez peut-être aussi

Liste des candidats retenus 2022-2023
Pas encore d'évaluation
Liste des candidats retenus 2022-2023
3 pages
Analyse de la complexité des algorithmes
Pas encore d'évaluation
Analyse de la complexité des algorithmes
4 pages
Corrigé Examen Web Sémantique RDFS
100% (2)
Corrigé Examen Web Sémantique RDFS
4 pages
Arbre de décision et ID3 en classification
Pas encore d'évaluation
Arbre de décision et ID3 en classification
58 pages
Algorithmique Avancée Introduction PDF
Pas encore d'évaluation
Algorithmique Avancée Introduction PDF
22 pages
Rapport TP Web Sémantique et Ontologie
Pas encore d'évaluation
Rapport TP Web Sémantique et Ontologie
10 pages
Validation et Visualisation RDF
Pas encore d'évaluation
Validation et Visualisation RDF
9 pages
Chap2 - Files D - Attente
Pas encore d'évaluation
Chap2 - Files D - Attente
20 pages
Introduction au RDF et ses concepts clés
100% (1)
Introduction au RDF et ses concepts clés
56 pages
Cours 2 Loi de Poisson Cours Et Exercices
Pas encore d'évaluation
Cours 2 Loi de Poisson Cours Et Exercices
13 pages
Chaines de Markov
100% (3)
Chaines de Markov
352 pages
Analyse lexicale et automates finis
Pas encore d'évaluation
Analyse lexicale et automates finis
6 pages
Analyse syntaxique et grammaire syntaxique
Pas encore d'évaluation
Analyse syntaxique et grammaire syntaxique
34 pages
4e Eval 2, MATHS, COSADO
Pas encore d'évaluation
4e Eval 2, MATHS, COSADO
2 pages
Mythe Et Philosophie Textes
Pas encore d'évaluation
Mythe Et Philosophie Textes
3 pages
Algèbre Et Arithmétique
Pas encore d'évaluation
Algèbre Et Arithmétique
140 pages
Licence en Informatique Ingenierie Des Reseaux Et Systemes
Pas encore d'évaluation
Licence en Informatique Ingenierie Des Reseaux Et Systemes
7 pages
Introduction à la grammaire comparée
Pas encore d'évaluation
Introduction à la grammaire comparée
12 pages
Force Obligatoire du Contrat: Conférence
Pas encore d'évaluation
Force Obligatoire du Contrat: Conférence
9 pages
Simple Professional CV Resume
Pas encore d'évaluation
Simple Professional CV Resume
1 page
Document
Pas encore d'évaluation
Document
2 pages
Memoire Sur La Gestion Du Juste À Temps
100% (13)
Memoire Sur La Gestion Du Juste À Temps
53 pages
Enseigner les mathématiques aujourd'hui
Pas encore d'évaluation
Enseigner les mathématiques aujourd'hui
15 pages
La Dictée Au Primaire - Dispositions Pratiques
100% (1)
La Dictée Au Primaire - Dispositions Pratiques
6 pages
Passage de Grades Kyokushinkai
Pas encore d'évaluation
Passage de Grades Kyokushinkai
12 pages
TD Réseaux : IP, ARP, ICMP et Adressage
100% (1)
TD Réseaux : IP, ARP, ICMP et Adressage
5 pages
Lecture et assemblage à la ferme
Pas encore d'évaluation
Lecture et assemblage à la ferme
7 pages
Alexia Dos Santos: Expérience Professionnelle
Pas encore d'évaluation
Alexia Dos Santos: Expérience Professionnelle
1 page
Cours de Philosophie Terminale A4
Pas encore d'évaluation
Cours de Philosophie Terminale A4
59 pages
ILHAM-Programme D'actions LA OULED TAIMA AGADIR
Pas encore d'évaluation
ILHAM-Programme D'actions LA OULED TAIMA AGADIR
9 pages
PV de Délibération Semestre 1 - 2023/2024 (Session:Normale)
Pas encore d'évaluation
PV de Délibération Semestre 1 - 2023/2024 (Session:Normale)
7 pages
Inscription UIASS: Guide Candidature
Pas encore d'évaluation
Inscription UIASS: Guide Candidature
3 pages
Reprenez Le Controle A L Aide de Linux
100% (1)
Reprenez Le Controle A L Aide de Linux
409 pages
Psychologie Sociale : Fondements et Avenir
100% (1)
Psychologie Sociale : Fondements et Avenir
436 pages
PEJEDEC Procedure Dinscription en Ligne
Pas encore d'évaluation
PEJEDEC Procedure Dinscription en Ligne
9 pages
Ngunga, Armindo. Grammaire de La Langue CHANGANA
Pas encore d'évaluation
Ngunga, Armindo. Grammaire de La Langue CHANGANA
312 pages
Maquettes UE 2025 JAZZ Et MAA
Pas encore d'évaluation
Maquettes UE 2025 JAZZ Et MAA
2 pages
Métaverse : Définition, Fonctionnement et Avenir
Pas encore d'évaluation
Métaverse : Définition, Fonctionnement et Avenir
8 pages
Proposition Epreuve Electronique Sujet 1
Pas encore d'évaluation
Proposition Epreuve Electronique Sujet 1
4 pages
Comment Décrypter Une Offre D'emploi
Pas encore d'évaluation
Comment Décrypter Une Offre D'emploi
10 pages
DP Arcimboldo 270421 Web
Pas encore d'évaluation
DP Arcimboldo 270421 Web
49 pages
Microbiologie (Bactériologie) - COSMOS 2024-2025
Pas encore d'évaluation
Microbiologie (Bactériologie) - COSMOS 2024-2025
98 pages
Fiche D'exploitation Équation À Une Incconnue
Pas encore d'évaluation
Fiche D'exploitation Équation À Une Incconnue
3 pages