0% ont trouvé ce document utile (0 vote)
32 vues95 pages

Deep Learning Licence

Le document présente une introduction au Deep Learning, en expliquant sa définition, son historique, ses différences avec le Machine Learning, et ses applications variées telles que la vision par ordinateur et le traitement du langage naturel. Il aborde également les outils et frameworks utilisés, ainsi que les objectifs d'un cours sur ce sujet, en mettant l'accent sur les bases mathématiques nécessaires. Enfin, il décrit les fonctions d'activation et leur importance dans les réseaux de neurones.

Transféré par

aminatakimbiri
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
32 vues95 pages

Deep Learning Licence

Le document présente une introduction au Deep Learning, en expliquant sa définition, son historique, ses différences avec le Machine Learning, et ses applications variées telles que la vision par ordinateur et le traitement du langage naturel. Il aborde également les outils et frameworks utilisés, ainsi que les objectifs d'un cours sur ce sujet, en mettant l'accent sur les bases mathématiques nécessaires. Enfin, il décrit les fonctions d'activation et leur importance dans les réseaux de neurones.

Transféré par

aminatakimbiri
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

DEEP LEARNING

IA ET APPLICATIONS
SÉANCE 1

1. Qu'est-ce que le Deep Learning ?


2. Historique et évolution.
3. Différence entre Machine Learning et Deep Learning.
4. Applications du Deep Learning.
5. Présentation des outils et frameworks.
6. Objectifs du cours.

13/05/2025
QU'EST-CE QUE LE DEEP LEARNING ?

• Définition :
• Sous-domaine du Machine Learning.
• Utilisation de réseaux de neurones artificiels pour modéliser des
données complexes.
• Caractéristiques :
• Apprentissage hiérarchique de caractéristiques (features).
• Capacité à traiter des données non structurées (images, texte,
son).

13/05/2025
HISTORIQUE ET ÉVOLUTION

• Années 1940-1950 : Naissance des premiers modèles de neurones (perceptron).


• Années 1980-1990 : Apparition des réseaux de neurones à plusieurs couches
(multi-layer perceptrons).
• Années 2000 : Progrès grâce à l'augmentation de la puissance de calcul et des
données.
• 2010s : Révolution du Deep Learning (AlexNet, GPT, AlphaGo, etc.).
• Aujourd'hui : Modèles de plus en plus grands et complexes (transformers,
GANs).

13/05/2025
APPLICATIONS DU DEEP LEARNING

• Vision par ordinateur :


• Reconnaissance d'images, détection d'objets, segmentation.

• Traitement du langage naturel (NLP) :


• Traduction automatique, chatbots, analyse de sentiments.

• Audio :
• Reconnaissance vocale, synthèse de la parole.

• Autres domaines :
• Santé (diagnostic médical), jeux vidéo (AlphaGo), recommandation (Netflix, Spotify).

13/05/2025
DOMAINE APP
Predicting microstructure-
dependent mechanical
properties in additively
manufactured metals with
machine- and deep-learning
methods

 Domaine app
 Domaine app
DOMAINE APP

La découverte et la formulation
de nouveaux médicaments,
antiviraux, antibiotiques,
catalyseurs, matériaux pour
batteries, et en général des
produits chimiques aux
propriétés adaptées,
nécessitent un changement de
paradigme pour rechercher
dans des pans inexplorés du
vaste espace chimique
Réf: [Link]
 Domaine app
NLP
RÉSEAUX DE NOUERONS
ANN

13/05/2025
ANN
ACTIVATION FUNCTIONS

 Activation Functions are applied to the inputs at each neuron


 A common activation function is the Sigmoid
INFERENCE
H1 Weights = (1.0, -2.0, 2.0)
0.5 H1 H2 Weights = (2.0, 1.0, -4.0)
H3 Weights = (1.0, -1.0, 0.0)
O1
O1 Weights = (-3.0, 1.0, -3.0)
0.9 H2 O2 Weights = (0.0, 1.0, 2.0)

O2

-0.3 H3
INFERENCE
H1 Weights = (1.0, -2.0,
2.0)
H2 Weights = (2.0, 1.0, -
0.5 .13 4.0)
H3 Weights = (1.0, -1.0,
O1 0.0)

0.9 .96 O1 Weights = (-3.0, 1.0, -


3.0)
O2 O2 Weights = (0.0, 1.0, 2.0)

-0.3 .40

H1 = S(0.5 * 1.0 + 0.9 * -2.0 + -0.3 * 2.0) = S(-1.9) = .13


H2 = S(0.5 * 2.0 + 0.9 * 1.0 + -0.3 * -4.0) = S(3.1) = .96
H3 = S(0.5 * 1.0 + 0.9 * -1.0 + -0.3 * 0.0) = S(-0.4) = .40
INFERENCE
H1 Weights = (1.0, -2.0, 2.0)
0.5 .13 H2 Weights = (2.0, 1.0, -4.0)
H3 Weights = (1.0, -1.0, 0.0)
.35
O1 Weights = (-3.0, 1.0, -3.0)
0.9 .96 O2 Weights = (0.0, 1.0, 2.0)

.85

-0.3 .40

O1 = S(.13 * -3.0 + .96 * 1.0 + .40 * -3.0) = S(-.63)


= .35
O1 = S(.13 * 0.0 + .96 * 1.0 + .40 * 2.0) = S(1.76)
MATRIX FORMULATION

H1 Weights = (1.0, -2.0, 2.0)


H2 Weights = (2.0, 1.0, -4.0)
H3 Weights = (1.0, -1.0, 0.0)

Hidden Layer Weights Inputs


1.0 - 2. 0.5 Hidden Layer
S( 2.0 0
* 0.9 ) = S( - 3.1 - ) =Outputs
.13 .96 0.
2.0 1.0 - 1.9 0. 4
4. - 4
0 0.3

1.0 - 0.
1.0 0
DEEP LEARNING = LEARNING HIERARCHICAL
REPRESENTATIONS
It's deep if it has more than one stage of non-linear feature
transformation
Low-level Mid-level High-level Trainable
feature feature feature classifier

Feature visualization of convolutional net trained on ImageNet from [Zeiler & Fergus 2 0 1 3 ]
EXEMPLE

 L’admission d’un étudiant dans une école supérieure se fait selon


les Compétences suivants:
• Capacité mentale
• Condition physique
• Situation financière
–Supposons qu’on a les informations suivantes:
• L'Age, la hauteur, le poids, l’adresse, salaire des partants,
moyenne du Bac.
Age

EXEMPLE
Hauteur mental
e

Poids

physiqu
admissi
e on
Adresse

financièr
salaire e

moyenne
EXEMPLE
Prédiction des prix des appartements
– Supposons qu’on a les caractéristiques (features) suivantes:

Nombre
Surface de
personnes
proximité
Nombre de
de
chambre
commodit Prix
és
Qualité
Adresse des écoles
DEEP LEARNING = Learning representations/features

Hand-crafted “Simple” Trainable


Feature Extractor Classifier

 The traditional model of pattern recognition (since the late 50's)


 Fixed/engineered features (or fixed kernel) + trainable classifier

Trainable Trainable
Feature Extractor Classifier

 End-to-end learning / Feature learning / Deep learning


 Trainable features (or kernel) + trainable classifier
ANN: LES PRINCIPES
PERCEPTRON
 Perceptron
LE PERCEPTRON MULTICOUCHE

Activation
∑x *w
i 1i

w11
x1 w12

Y Calcule de l’Erreur
x ^
2
w13
x3

Ajuster les poids


OUTILS ET FRAMEWORKS

• TensorFlow : Développé par Google, largement utilisé dans


l'industrie.
• PyTorch : Développé par Facebook, populaire dans la recherche.
• Keras : API haut niveau pour TensorFlow, facile à utiliser.
• Autres outils :
• Jupyter Notebook pour le prototypage.
• NumPy, Pandas pour la manipulation des données.

13/05/2025
OBJECTIFS DU COURS

• Comprendre les concepts fondamentaux du Deep


Learning.
• Savoir implémenter des réseaux de neurones simples et
complexes.
• Explorer des applications pratiques (vision, NLP, etc.).
• Préparer les étudiants à des projets ou recherches avancés
en IA.
13/05/2025
DES QUESTIONS AVANT DE COMMENCER ?

13/05/2025
RAPPELS MATHÉMATIQUES POUR LE DEEP LEARNING
Algèbre linéaire, Calcul différentiel, Probabilités

Objectifs :
• Comprendre les bases mathématiques nécessaires.
• Préparer le terrain pour les concepts de réseaux de
neurones.

13/05/2025
ALGÈBRE LINÉAIRE

• Vecteurs et Matrices :
• Définitions et opérations de base (addition, multiplication).
• Produit scalaire et produit matriciel.

• Concepts clés :
• Transposée, inverse, trace.
• Valeurs propres et vecteurs propres.

• Applications en DL :
• Représentation des données et des poids dans les réseaux de neurones.

13/05/2025
13/05/2025
CALCUL DIFFÉRENTIEL

• Dérivées :
• Dérivée d'une fonction, dérivée partielle.
• Règle de la chaîne (chain rule).

• Gradient :
• Définition et interprétation géométrique.
• Calcul du gradient pour une fonction multivariée.

• Applications en DL :
• Optimisation des modèles via la descente de gradient.

13/05/2025
FONCTION DÉRIVÉE

13/05/2025
PROBABILITÉS ET STATISTIQUES

• Variables aléatoires :
• Distributions (normale, uniforme, binomiale).
• Espérance, variance, covariance.

• Théorème de Bayes :
• Probabilité conditionnelle.
• Applications en classification.

• Applications en DL :
• Gestion de l'incertitude dans les prédictions..

13/05/2025
FONCTIONS D'ACTIVATION ET PROPAGATION
Perceptron, Forward Propagation, Backpropagation

Objectifs :
• Comprendre le rôle des fonctions d'activation.
• Maîtriser les mécanismes de propagation dans
un réseau.

13/05/2025
FONCTIONS D'ACTIVATION

• Définition :
• Fonction appliquée à la sortie d'un neurone.

• Types de fonctions :
• Sigmoïde, Tanh, ReLU, Softmax.

• Propriétés :
• Linéarité vs non-linéarité.
• Impact sur l'apprentissage.

13/05/2025
FONCTION D'ACTIVATION
 Une fonction d'activation est une fonction non
linéaire appliquée par un neurone pour introduire
des propriétés non linéaires dans le réseau.

 Une fonction d'activation est


une caractéristique très
importante d'un réseau de
neurones artificiels, ils décident
fondamentalement si le
neurone doit être activé ou non.
 Dans les réseaux de neurones
artificiels , la fonction
d'activation définit la sortie de
ce nœud en fonction d'une
entrée ou d'un ensemble
d'entrées.
COMMON ACTIVATION FUNCTIONS
1. The sigmoid function has a smooth gradient and outputs values between zero
and one. For very high or low values of the input parameters, the network can be
very slow to reach a prediction, called the vanishing gradient problem.
2. The TanH function is zero-centered making it easier to model inputs that are
strongly negative strongly positive or neutral.
3. The ReLu function is highly computationally efficient but is not able to process
inputs that approach zero or negative.
4. The Leaky ReLu function has a small positive slope in its negative area, enabling it
to process zero or negative values.
5. The Parametric ReLu function allows the negative slope to be learned, performing
backpropagation to learn the most effective slope for zero and negative input
values.
6. Softmax is a special activation function use for output neurons. It normalizes
outputs for each class between 0 and 1, and returns the probability that the input
belongs to a specific class.
7. Swish is a new activation function discovered by Google researchers. It performs
better than ReLu with a similar level of computational efficiency.
TYPES DE FONCTION D'ACTIVATION
 Types de fonction d'activation:
 Fonction linéaire
 Fonction pas binaire
 Fonction non linéaire

 Propriétés que la fonction


d'activation doit posséder?
 Dérivée ou
différentielle: changement de
l'axe y par rapport au changement
de l'axe x, également connu sous
le nom de pente. (Back prop)
 Fonction monotone: une fonction
qui est soit entièrement non
croissante, soit non décroissante.
FONCTION D'ACTIVATION
 La plupart des réseaux de neurones modernes utilisent la fonction non
linéaire comme fonction d'activation pour déclencher le neurone.
 La raison en est qu'ils permettent au modèle de créer des mappages
complexes entre les entrées et les sorties du réseau, qui sont
essentielles pour l'apprentissage et la modélisation de données
complexes,
 telles que des images, de la vidéo, de l'audio et des ensembles de
données qui sont non linéaires ou ont une dimensionnalité élevée.
 Les différentiels sont possibles dans toutes les fonctions non linéaires.
 L'empilement du réseau est possible, ce qui nous aide à créer les
réseaux neuronaux profonds.
 Les fonctions d'activation non linéaires sont principalement divisées en
fonction de leur plage ou de leurs courbes.
SIGMOÏDE / LOGISTIQUE
 Avantages
 Gradient lisse , empêchant les «sauts» dans les valeurs de sortie.
 Les valeurs de sortie sont liées entre 0 et 1, normalisant la sortie de chaque neurone.
 Prédictions claires - Pour X supérieur à 2 ou inférieur à -2, tend à amener la valeur Y (la
prédiction) au bord de la courbe, très proche de 1 ou 0. Cela permet des prédictions claires.
 Désavantages
 Gradient de fuite - pour des valeurs de X très élevées ou très faibles, il n'y a pratiquement
pas de changement dans la prédiction, ce qui entraîne un problème de gradient de fuite.
Cela peut conduire le réseau à refuser d'apprendre davantage ou à être trop lent pour
atteindre une prédiction précise.
 Sorties non centrées sur zéro .
 Calcul coûteux
TANH
 Avantages
 Centré sur zéro - ce qui facilite la modélisation des entrées qui ont des
valeurs fortement négatives, neutres et fortement positives.
 Sinon, comme la fonction Sigmoid.
 Désavantages
 Comme la fonction sigmoïde
RELU (UNITÉ LINÉAIRE RECTIFIÉE)
 Avantages
 Efficace en termes de calcul - permet au réseau de converger très rapidement
 Non linéaire - bien que cela ressemble à une fonction linéaire, ReLU a une fonction
dérivée et permet une rétropropagation
 Désavantages
 Le problème Dying ReLU - lorsque les entrées s'approchent de zéro, ou sont négatives,
le gradient de la fonction devient nul, le réseau ne peut pas effectuer de
rétropropagation et ne peut pas apprendre
LEAKY RELU
 Advantages
 Empêchele probléme de dying ReLU — cette variation de ReLU a une petite pente positive dans la
zone négative, elle permet donc la rétropropagation, même pour des valeurs d'entrée négatives
 Otherwise like ReLU
 Disadvantages
 Résultats non cohérents— leaky ReLU ne fournit pas de prévisions cohérentes pour les valeurs
d'entrée négatives.
SOFTMAX
 Avantages
 Capable de gérer plusieurs classes une seule classe dans
d'autres fonctions d'activation - normalise les sorties de
chaque classe entre 0 et 1, et divise par leur somme, donnant
la probabilité que la valeur d'entrée soit dans une classe
spécifique.
 Utile pour les neurones de sortie - généralement Softmax est
utilisé uniquement pour la couche de sortie, pour les réseaux
de neurones qui doivent classer les entrées en plusieurs
catégories.
PERCEPTRON

• Définition :
• Unité de base d'un réseau de neurones.

• Structure :
• Entrées, poids, biais, fonction d'activation.

• Apprentissage :
• Ajustement des poids via la descente de gradient

13/05/2025
FORWARD PROPAGATION

• Définition :
• Calcul des sorties à partir des entrées.

• Étapes :
• Multiplication des entrées par les poids.
• Application de la fonction d'activation.

• Exemple :
• Calcul pas à pas pour un réseau simple.

13/05/2025
BACKPROPAGATION

• Définition :
• Algorithme pour ajuster les poids en fonction de l'erreur.

• Étapes :
• Calcul de l'erreur (loss function).
• Rétropropagation du gradient.
• Mise à jour des poids.

• Exemple :
• Calcul pas à pas pour un réseau simple.

13/05/2025
FONCTION DE PERTE (LOSS FUNCTION)
• Rôle :
• La fonction de perte quantifie à quel point les prédictions du modèle sont éloignées des valeurs réelles.
• Elle guide l'optimisation en indiquant la direction dans laquelle ajuster les poids.
• Exemples :
• MSE (Mean Squared Error) : Utilisée en régression, pénalise les grandes erreurs.
• Cross-Entropy : Utilisée en classification, mesure la divergence entre les distributions de probabilité.
 Erreur et Rétropropagation

• Erreur :
• L'erreur est calculée en comparant la sortie du modèle à la sortie attendue.
• Elle est utilisée pour calculer le gradient de la fonction de perte.
• Rétropropagation :
• L'algorithme de rétropropagation propage l'erreur à travers le réseau, couche par couche.
• Il calcule les gradients par rapport à chaque poids, ce qui permet de les ajuster via la descente de
gradient.
13/05/2025
13/05/2025
13/05/2025
13/05/2025
FONCTION ERREUR

Dans le Deep Learning, la fonction de perte (loss


function) mesure l'écart entre les prédictions du
modèle et les valeurs réelles. Il existe plusieurs
types de fonctions de perte adaptées aux
différentes tâches (classification, régression, etc.).

13/05/2025
FONCTIONS DE PERTE POUR LA RÉGRESSION

 1. Fonctions de perte pour la régression


 Ces fonctions mesurent la différence entre les valeurs numériques prédites et réelles.
 a) Erreur quadratique moyenne (MSE - Mean Squared Error)

 Penalise fortement les grandes erreurs.


 Sensible aux outliers.

13/05/2025
FONCTIONS DE PERTE POUR LA RÉGRESSION

 Erreur absolue moyenne (MAE - Mean Absolute


Error)

• Moins sensible aux outliers que MSE.


• Ne punit pas fortement les grandes erreurs.

13/05/2025
FONCTIONS DE PERTE POUR LA RÉGRESSION

 Erreur quadratique moyenne racine (RMSE - Root


Mean Squared Error)

• Similaire à MSE, mais exprimé dans la même unité que les


données.

13/05/2025
FONCTIONS DE PERTE POUR LA RÉGRESSION

 Huber Loss

• Combine les avantages du MSE (pour les petites erreurs)


et du MAE (moins sensible aux outliers).

13/05/2025
FONCTIONS DE PERTE POUR LA RÉGRESSION

 Log-Cosh Loss

• Semblable à Huber Loss, mais plus lisse et robuste aux


outliers.

13/05/2025
FONCTIONS DE PERTE POUR LA CLASSIFICATION

 Entropie croisée (Cross-Entropy Loss ou Log Loss)


 Utilisée pour les problèmes de classification.
 i) Pour une classification binaire :

• Utilisée avec une activation sigmoïde.


 ii) Pour une classification multi-classes :

• Utilisée avec une activation softmax.

13/05/2025
FONCTIONS DE PERTE POUR LA CLASSIFICATION

 Kullback-Leibler Divergence (KL-Divergence)

• ​Mesure la différence entre deux distributions de probabilité.

 Focal Loss (utile pour les classes déséquilibrées)

• Réduit l'importance des exemples bien classifiés pour se concentrer sur les
erreurs difficiles.

13/05/2025
FONCTIONS DE PERTE POUR LES MODÈLES SPÉCIFIQUES

 CTC Loss (Connectionist Temporal Classification)

• Utilisée pour la reconnaissance vocale ou l'OCR où la longueur des


séquences d'entrée et de sortie varie.

 b) Triplet Loss

• Utilisée pour l'apprentissage de représentations (ex : reconnaissance


faciale).

13/05/2025
FONCTIONS DE PERTE POUR LES MODÈLES SPÉCIFIQUES
 La CTC Loss (Connectionist Temporal Classification) est utilisée pour entraîner des
modèles sur des séquences où la longueur des entrées et des sorties peut être différente,
comme la reconnaissance vocale ou l'OCR.

 La perte CTC repose sur la somme des probabilités des chemins valides qui mappent
l'entrée à la sortie correcte, en introduisant un symbole de blanc (_) pour gérer les
répétitions et alignements.
 On calcule généralement la CTC Loss via un algorithme de programmation dynamique
similaire au calcul du Forward-Backward Algorithm utilisé dans les HMM (Hidden
Markov Models). 13/05/2025
13/05/2025
13/05/2025
EVALUATION
 Accuracy
 Precision and recall
 Squared error
 Likelihood
 Posterior probability
 Cost / Utility
 Margin
 Entropy
 K-L divergence
 Etc.
MÉTRIQUES
MÉTRIQUES POUR ÉVALUER LES MODÉLES
INTRO
L'évaluation de l’algorithme d'apprentissage
automatique est une partie essentielle de tout
projet.
Le modèle peut donner des résultats satisfaisants
lorsqu'il est évalué à l'aide d'une métrique, mais il
peut donner des résultats médiocres lorsqu'il est
évalué par rapport à d'autres métriques.
Measuring Success for Classification

– True Positive: Correctly identified as relevant


– True Negative: Correctly identified as not relevant
– False Positive: Incorrectly labeled as relevant
– False Negative: Incorrectly labeled as not relevant
ACCURACY , PRECISION, RECALL, F1
Example: Identify Cats

Predicti
on:

Image
:

True True False False


Positive Negativ Positive
Negativ e
e
Images from the STL-10 dataset
ACCURACY , PRECISION, RECALL, F1
Taux de vrais positifs (sensibilité) : le taux de
vrais positifs est défini comme TP/ (FN+TP)
Taux Négatif Vrai (Spécificité) : Le Taux
Négatif Vrai est défini comme TN / (FP+TN) .
Le score F1 est utilisé pour mesurer la précision
d'un test
F1
Quand l'utiliser ?
Pratiquement dans tous les problèmes de
classification binaire où l'on se soucie
davantage de la classe positive.
Elle peut être facilement expliquée aux
parties prenantes, ce qui, dans de
nombreux cas, peut être un facteur décisif.
ACCURACY
Quand cela a-t-il un sens de l'utiliser ?
Lorsque votre problème est équilibré, l'utilisation
de la précision est généralement un bon début.
Un avantage supplémentaire est qu'il est
vraiment facile de l'expliquer aux parties
prenantes non techniques de votre projet.
Lorsque chaque classe a la même importance
pour vous.
ACCURACY

Vous ne devriez pas utiliser l’exactitude


sur des problèmes déséquilibrés .
Il est facile d'obtenir un score de précision
élevé en classant simplement toutes les
observations dans la classe majoritaire.
SCORE ROC AUC
 AUC signifie aire sous la courbe, donc pour parler du
score ROC AUC, nous devons d'abord définir la courbe
ROC.
 Il s'agit d'un graphique qui visualise le compromis entre le
taux de vrais positifs (TPR) et le taux de faux positifs (FPR).
Fondamentalement, pour chaque seuil, nous calculons le TPR
et le FPR et les reportons sur un graphique.
 Bien sûr, plus le TPR est élevé et plus le FPR est faible pour
chaque seuil, mieux c'est, et donc les classifieurs dont les
courbes se situent plus en haut à gauche sont meilleurs.
 Mathématiquement, il est
calculé par aire sous la
courbe de sensibilité (TPR) vs
FPR (1-spécificité).
 Idéalement, nous aimerions
avoir une sensibilité et une
spécificité élevées, mais
dans les scénarios du monde
réel, il y a toujours un
compromis entre sensibilité
et spécificité.
ROC AUC
Du point de vue de l'interprétation, elle est plus
utile car elle nous indique que cette métrique
montre à quel point votre modèle est bon
pour classer les prédictions .
Il vous indique quelle est la probabilité qu'une
instance positive choisie au hasard soit mieux
classée qu'une instance négative choisie au
hasard.
ROC AUC
 Vous devriez l'utiliser lorsque vous vous intéressez aux prédictions de
classement et pas nécessairement à la production de probabilités bien
calibrées.
 Vous ne devriez pas l'utiliser lorsque vos données sont fortement
déséquilibrées. L'intuition est la suivante : le taux de faux positifs pour les
ensembles de données fortement déséquilibrés est réduit en raison d'un grand
nombre de vrais négatifs.
 Vous devriez l'utiliser lorsque vous vous souciez autant des classes positives
que négatives. Elle prolonge naturellement la discussion sur les données
déséquilibrées de la dernière section. Si nous nous préoccupons des vrais
négatifs autant que des vrais positifs, il est tout à fait logique d'utiliser ROC
AUC.
SEMAINE 3 : OPTIMISATION ET RÉGULARISATION
Descente de gradient, Régularisation, Dropout

• Objectifs :
• Comprendre les techniques d'optimisation.
• Apprendre à éviter le surapprentissage (overfitting).

13/05/2025
DESCENTE DE GRADIENT

• Définition :
• Algorithme pour minimiser la fonction de coût.

• Variantes :
• SGD (Stochastic Gradient Descent).
• Momentum, Adam, RMSprop.

• Paramètres :
• Taux d'apprentissage (learning rate).
• Impact sur la convergence.

13/05/2025
RÉGULARISATION

• Définition :
• Techniques pour éviter le surapprentissage.

• Méthodes :
• L1/L2 regularization.
• Dropout.
• Early stopping.

• Exemples :
• Impact sur les performances du modèle.

13/05/2025
DROPOUT

• Définition :
• Technique de régularisation aléatoire.

• Fonctionnement :
• Désactivation aléatoire de neurones pendant l'entraînement.

• Avantages :
• Réduction du surapprentissage.
• Amélioration de la généralisation.

13/05/2025
RÉSEAU SE COMPOSE DE:

 Des couches
 Deux opérations
 Propagation en avant
 Propagation en arrière

 Des couches d’activation


 Une couche full connected
 Fonction de perte
 Opération d’apprentissage
 Opération de prédiction/classification
PASSE AVANT — FORWARD PROPAGATION

 On propage l’entrée X (image, son, texte, etc.) dans le réseau de neurones jusqu’à obtenir la
sortie Y. Puis, on observe une erreur E qu’il faut diminuer.
PRINCIPE (PROPAGATION EN AVANT)
NOTATION MATRICIELLE
13/05/2025
13/05/2025

Vous aimerez peut-être aussi