0% ont trouvé ce document utile (0 vote)

19 vues4 pages

Supplément

Le document présente différentes techniques de validation des modèles, notamment la validation 'TestSplit', la validation croisée à k blocs et la validation 'leave-one-out'. Il aborde également les concepts de surapprentissage et sous-apprentissage, ainsi que le dilemme biais-variance qui influence la performance des modèles. Enfin, il décrit les mesures de performance telles que la précision, le rappel et l'accuracy, illustrées par un tableau de confusion.

Transféré par

6ahmedtrabilsy9

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

19 vues4 pages

Supplément

Transféré par

6ahmedtrabilsy9

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Techniques de validation des modèles :

1. Validation « TestSplit » : on divise l'échantillon de taille n en deux sous-échantillons,

le premier dit d'apprentissage (communément supérieur à 60 % de l'échantillon) et le
second dit de validation ou de test. Le modèle est bâti sur l'échantillon d'apprentissage
et validé sur l'échantillon de test avec un score de performance de notre choix.
2. La validation croisée à k blocs, « k-fold cross-validation » : on divise l'échantillon
original en k échantillons (ou « blocs »), puis on sélectionne un des k échantillons
comme ensemble de validation pendant que les k-1 autres échantillons constituent
l'ensemble d'apprentissage. Après apprentissage, on peut calculer une performance de
validation. Puis on répète l'opération en sélectionnant un autre échantillon de validation
parmi les blocs prédéfinis. À l'issue de la procédure nous obtenons ainsi scores de
performances, un par bloc. La moyenne et l'écart type des scores de performances
peuvent être calculés pour estimer le biais et la variance de la performance de validation.

Tableau de répartitions des données pour

une validation croisée à k=3 blocs

k bloc 1 bloc 2 bloc 3

1 validation apprentissage apprentissage

2 apprentissage validation apprentissage

3 apprentissage apprentissage validation

 « leave-one-out cross-validation » (LOOCV) : cas particulier de la deuxième méthode

où k=n, c'est-à-dire que l'on apprend sur n-1 observations puis on valide le modèle sur la
énième observation et l'on répète cette opération n fois
Surapprentissage : on parle de surapprentissage (le terme anglais est overfitting) quand un
modèle a trop appris les particularités de chacun des exemples fournis en exemple. Il présente
alors un taux de succès très important sur les données d’entraînement (pouvant atteindre jusqu’à
100%), mais se généralise mal (performance moins bonnes sur les données de test).
Sousapprentissage : un algorithme qui n’apprend pas suffisamment de la phase d’apprentissage
(mauvaise performance sur le training set)

Dilemme Biais-Variance :

 Le biais est l'erreur provenant d’hypothèses erronées dans l'algorithme d'apprentissage. Un

biais élevé peut être lié à un algorithme qui manque de relations pertinentes entre les
données en entrée et les sorties prévues (sous-apprentissage).

 La variance est l'erreur due à la sensibilité aux petites fluctuations de l’échantillon

d'apprentissage. Une variance élevée peut entraîner un surapprentissage, c'est-à-dire
modéliser le bruit aléatoire des données d'apprentissage plutôt que les sorties prévues.

 Le principe de compromis entre biais et variance est une des problématiques à

laquelle vous serez confrontés lors de votre travail quotidien !
 En utilisant un modèle comportant une trop grande complexité, dit "à haute
variance", on peut mal capturer le phénomène sous-jacent et devenir trop dépendant
aux données d'entraînement et aux petites fluctuations aléatoires, non représentatives du
phénomène.
 A contrario, il ne faut pas choisir un modèle trop "simple" qui biaise le résultat et ne
parvient pas à capturer toute la complexité du phénomène.
Mesures de performance :
Précision (ou valeur prédictive positive) est la proportion des items pertinents pour une classe
parmi l'ensemble des items proposés à cette classe,
Rappel (ou sensibilité) est la proportion des items pertinents proposés pour une classe parmi
l'ensemble des items réellement pertinents pour cette classe.
Une mesure qui combine la précision et le rappel est leur moyenne harmonique, nommée F-
mesure ou F-score :
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛∗𝑅𝑎𝑝𝑝𝑒𝑙
𝐹 = 2 ∗ Précision+Rappel

Accuracy = nb instances correctement classifiés / nb total d’instances

Yes NO
Yes 7 2
No 4 1

PrecisionYes = 7/7+4 =7/11 RappelYes = 7/7+2 =7/9

PrecisionNo = 1/1+2 =1/3 RappelNo =1/1+4 =1/5
Accuracy = (7+1)/14 = 8/14

Vous aimerez peut-être aussi

Evaluation Et Séléction Du Modèle 2
Pas encore d'évaluation
Evaluation Et Séléction Du Modèle 2
36 pages
Chapitre 5
Pas encore d'évaluation
Chapitre 5
20 pages
I. Comprendre Le Problème Et Les Données
Pas encore d'évaluation
I. Comprendre Le Problème Et Les Données
7 pages
Metric de Devaluation Performance
Pas encore d'évaluation
Metric de Devaluation Performance
16 pages
DM Chapitre 02 Partie 02
Pas encore d'évaluation
DM Chapitre 02 Partie 02
70 pages
Corrigé D'un Examen de Machine Learning S4 Génie MIS
100% (1)
Corrigé D'un Examen de Machine Learning S4 Génie MIS
25 pages
Évaluer les Modèles de Machine Learning
Pas encore d'évaluation
Évaluer les Modèles de Machine Learning
51 pages
Ss 1
Pas encore d'évaluation
Ss 1
6 pages
Méthodes de Rééchantillonnage et Validation
Pas encore d'évaluation
Méthodes de Rééchantillonnage et Validation
4 pages
Optimisation et Évaluation des Modèles
100% (1)
Optimisation et Évaluation des Modèles
47 pages
Validation 2
Pas encore d'évaluation
Validation 2
26 pages
Chapitre - MachineLearning - Arbre de Decison
Pas encore d'évaluation
Chapitre - MachineLearning - Arbre de Decison
31 pages
Cours ML Mounira
100% (1)
Cours ML Mounira
131 pages
7-Mesures de Performances en Classification - 24-25 - CT
Pas encore d'évaluation
7-Mesures de Performances en Classification - 24-25 - CT
12 pages
IA Appliquée pour Ingénieurs GE
Pas encore d'évaluation
IA Appliquée pour Ingénieurs GE
42 pages
Cours Complet ML Mory - (Partie 1)
Pas encore d'évaluation
Cours Complet ML Mory - (Partie 1)
91 pages
Évaluation des Modèles en Data Mining
Pas encore d'évaluation
Évaluation des Modèles en Data Mining
4 pages
Indicateurs de Performance en Machine Learning
Pas encore d'évaluation
Indicateurs de Performance en Machine Learning
3 pages
Validation Croisée : Évaluation des Modèles
Pas encore d'évaluation
Validation Croisée : Évaluation des Modèles
15 pages
Probl É Mati Que
Pas encore d'évaluation
Probl É Mati Que
10 pages
Arbre Decision 2324 4p 12 22
Pas encore d'évaluation
Arbre Decision 2324 4p 12 22
11 pages
Chap2 ML
Pas encore d'évaluation
Chap2 ML
44 pages
Notes de Cours Ensemble Learning
Pas encore d'évaluation
Notes de Cours Ensemble Learning
6 pages
Mesures D - Evaluations
Pas encore d'évaluation
Mesures D - Evaluations
6 pages
Validation croisée en apprentissage
Pas encore d'évaluation
Validation croisée en apprentissage
42 pages
Interrogation IA
Pas encore d'évaluation
Interrogation IA
10 pages
Evaluation Des Modèles de Machine Learning
Pas encore d'évaluation
Evaluation Des Modèles de Machine Learning
7 pages
Biais et Variance en Apprentissage Machine
Pas encore d'évaluation
Biais et Variance en Apprentissage Machine
28 pages
Critères et Algorithmes en Data Science
Pas encore d'évaluation
Critères et Algorithmes en Data Science
4 pages
Sujet 46
Pas encore d'évaluation
Sujet 46
14 pages
Cours Fouilles Donnees
Pas encore d'évaluation
Cours Fouilles Donnees
37 pages
D'algorithmes Et de Modèles
100% (1)
D'algorithmes Et de Modèles
53 pages
Ahmed Yassine Metkoul
Pas encore d'évaluation
Ahmed Yassine Metkoul
7 pages
Cours Sur Les Généralités Du Machine Learning
Pas encore d'évaluation
Cours Sur Les Généralités Du Machine Learning
12 pages
Algorithme Machine Learng
Pas encore d'évaluation
Algorithme Machine Learng
16 pages
Med Yassine Tanabene Rapport TP2
Pas encore d'évaluation
Med Yassine Tanabene Rapport TP2
13 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
63 pages
Data Science Correction - Copy - Final - Copie FR
Pas encore d'évaluation
Data Science Correction - Copy - Final - Copie FR
41 pages
Chap6 0notes
Pas encore d'évaluation
Chap6 0notes
10 pages
Notes D'étude Pour Réussir Votre Entretien en Science Des Données
Pas encore d'évaluation
Notes D'étude Pour Réussir Votre Entretien en Science Des Données
7 pages
Examen ML: Classification et Préparation
Pas encore d'évaluation
Examen ML: Classification et Préparation
6 pages
Classification Et Évaluation
Pas encore d'évaluation
Classification Et Évaluation
52 pages
Cours4 - Sélection de Modèle D'apprentissage
Pas encore d'évaluation
Cours4 - Sélection de Modèle D'apprentissage
20 pages
Introduction à l'apprentissage supervisé KPPV
100% (1)
Introduction à l'apprentissage supervisé KPPV
25 pages
ML Modèle
Pas encore d'évaluation
ML Modèle
9 pages
TD 3
Pas encore d'évaluation
TD 3
12 pages
Cours - Article Machine Learning
Pas encore d'évaluation
Cours - Article Machine Learning
102 pages
Metrique Et Mesures de Perdermance
Pas encore d'évaluation
Metrique Et Mesures de Perdermance
3 pages
Scikit Learn 2
Pas encore d'évaluation
Scikit Learn 2
1 page
résuméML1
Pas encore d'évaluation
résuméML1
6 pages
Ensemble Learning - Forêt Aléatoire, Boosting, Stacking
Pas encore d'évaluation
Ensemble Learning - Forêt Aléatoire, Boosting, Stacking
26 pages
Résumé Machine Learning&pandas&numpy
Pas encore d'évaluation
Résumé Machine Learning&pandas&numpy
26 pages
TD 3 Classification: Exercice 1
Pas encore d'évaluation
TD 3 Classification: Exercice 1
12 pages
Analyse Prédictive des Élections et Discours Présidentiels
Pas encore d'évaluation
Analyse Prédictive des Élections et Discours Présidentiels
26 pages
Défis et Solutions en Apprentissage Automatique
Pas encore d'évaluation
Défis et Solutions en Apprentissage Automatique
38 pages
Steps To Complete A Machine Learning
Pas encore d'évaluation
Steps To Complete A Machine Learning
11 pages
STATISTIQUE I - Activité 2
Pas encore d'évaluation
STATISTIQUE I - Activité 2
4 pages
Projet ADD-1 - Copie - Copie - 052753
Pas encore d'évaluation
Projet ADD-1 - Copie - Copie - 052753
34 pages
TD 2-Statistiques Descriptives - Corrigé
Pas encore d'évaluation
TD 2-Statistiques Descriptives - Corrigé
2 pages
Regression 1
Pas encore d'évaluation
Regression 1
9 pages
Séries Temporelles ARIMA
Pas encore d'évaluation
Séries Temporelles ARIMA
23 pages
Ajust 01
Pas encore d'évaluation
Ajust 01
9 pages
TP 4: Régression, Corrélations Et ACP
Pas encore d'évaluation
TP 4: Régression, Corrélations Et ACP
5 pages
Ajustement Linéaire et Corrélation
Pas encore d'évaluation
Ajustement Linéaire et Corrélation
8 pages
CHAPITRE 3 Analyse Factorielle
Pas encore d'évaluation
CHAPITRE 3 Analyse Factorielle
100 pages
Fip2 Evaluation Estimation Statistique 2024 2025
Pas encore d'évaluation
Fip2 Evaluation Estimation Statistique 2024 2025
2 pages
DM Chapitre 1 1
Pas encore d'évaluation
DM Chapitre 1 1
50 pages
Tests d'hypothèses statistiques
Pas encore d'évaluation
Tests d'hypothèses statistiques
3 pages
TD 1 2019-2020
100% (1)
TD 1 2019-2020
2 pages
Statistiques IDSD
Pas encore d'évaluation
Statistiques IDSD
16 pages
Examen Piimt
Pas encore d'évaluation
Examen Piimt
1 page
Khi 2
Pas encore d'évaluation
Khi 2
2 pages
Regression Multiple
Pas encore d'évaluation
Regression Multiple
4 pages
Série Dexercices N°1
Pas encore d'évaluation
Série Dexercices N°1
7 pages
Correction TD3 ProbabilitesEtStatistique ENS LE Math S4
Pas encore d'évaluation
Correction TD3 ProbabilitesEtStatistique ENS LE Math S4
3 pages
Introduction à l'analyse multivariée
Pas encore d'évaluation
Introduction à l'analyse multivariée
9 pages
Régression Linéaire
100% (1)
Régression Linéaire
86 pages
Corrélation et Ajustement Statistique
Pas encore d'évaluation
Corrélation et Ajustement Statistique
7 pages
Représentations Graphiques et Statistiques Descriptives
Pas encore d'évaluation
Représentations Graphiques et Statistiques Descriptives
16 pages
Support de Cours Module ADD Univ Annaba (Tchi Drive)
Pas encore d'évaluation
Support de Cours Module ADD Univ Annaba (Tchi Drive)
104 pages
Statistiques et Corrélations Visuelles
Pas encore d'évaluation
Statistiques et Corrélations Visuelles
80 pages
2.TD CG Prévision Des Ventes
100% (1)
2.TD CG Prévision Des Ventes
9 pages
Inférence et Tests en Économétrie
Pas encore d'évaluation
Inférence et Tests en Économétrie
17 pages
TD 2 Statistique Univariée
0% (1)
TD 2 Statistique Univariée
3 pages
Statistique descriptive et applications économiques
100% (1)
Statistique descriptive et applications économiques
58 pages