0% ont trouvé ce document utile (0 vote)
58 vues49 pages

RCP217 Cours Flux

Transféré par

egondragon
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
58 vues49 pages

RCP217 Cours Flux

Transféré par

egondragon
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

RCP217 —Intelligence artificielle

pour des données multimédia

Responsable UE : Marin FERECATU


Conservatoire National des Arts et Métiers
Lab. CEDRIC, Equipe Vertigo
[Link]

Marin Ferecatu RCP217 — IA pour des données multimédia 1


Plan de la séance
• Contexte
• Apprentissage en flux vs. apprentissage statique
• Dérive conceptuelle et oubli catastrophique
• Solutions :
• Méthodes par régularisation
• Architectures DNN évolutives
• Méthodes dual-memory

Marin Ferecatu RCP217 — IA pour des données multimédia 2


Contexte
Anglais : stream learning
Flux/flot de données :
• Séquence ordonnée d’éléments (dans le temps)
• Lisibles une seule fois (ou nb. de fois limité)
• Données continus, illimités, arrivent avec une grande
rapidité
• Système limité en capacité mémoire et stockage.
• Distribution statistique qui change avec le temps.
Exemples : le trafic réseau, les conversations
téléphoniques, les transactions ATM, les recherches sur
le web, et les données des capteurs (météo, médicales,
satellite, etc).
Marin Ferecatu RCP217 — IA pour des données multimédia 3
Apprentissage en flux
• Apprentissage en flux de données / apprentissage
incrémental

Marin Ferecatu RCP217 — IA pour des données multimédia 4


Plan de la séance
• Contexte
• Apprentissage en flux vs. apprentissage statique
• Dérive conceptuelle et oubli catastrophique
• Solutions :
• Méthodes par régularisation
• Architectures DNN évolutives
• Méthodes dual-memory

Marin Ferecatu RCP217 — IA pour des données multimédia 5


Apprentissage statique
Apprentissage statique (static learning) :
• Données d’apprentissage disponible dès le départ
• Mise-à-jour des données
• Apparition des nouvelles classes
• Disparition des classes
• Pas de problème de disponibilité de donnés
Solution :
• Ré-apprentissage
• Fine tuning (pour des données supplémentaires)
Marin Ferecatu RCP217 — IA pour des données multimédia 6
Apprentissage statique
• Pas de problème de disponibilité de donnés
• Pas de contrainte de temps réel

Ré-apprentissage possible
Mise-à-jour du modèle possible

Marin Ferecatu RCP217 — IA pour des données multimédia 7


Apprentissage en flot (EN: stream)
Contraintes :
• Les données arrivent de façon continu (incrémentale)
• La composition/structure des données change :
• Des nouvelles classes peuvent apparaitre
• Une parties des classes peuvent disparaitre (et réapparaitre
plus tard dans le flux)
• Non-stationarité
• Souvent on veut un modèle à jour à chaque instant
(contrainte de temps réel)
• Souvent les données historique ne sont pas stockées

Marin Ferecatu RCP217 — IA pour des données multimédia 8


Apprentissage en flux

Modèle Modèle
courant mis à jour

Data batch Data batch Data batch …………… Data batch

Données Fenêtre courante/glissante Structure temps


historique dynamique
des classes

Marin Ferecatu RCP217 — IA pour des données multimédia 9


Apprentissage en flux
Applications :
• Analyse de tendance sur les réseaux sociaux
• Traitement des flux vidéos
• Surveillance de capteurs
• Trafique en temps réel
• Environnement (météo, pollution, etc.)
• Données de l’espace (images satellite multi-
résolution)
• etc.

Marin Ferecatu RCP217 — IA pour des données multimédia 10


Apprentissage en flux
Exigences pour un système d’apprentissage en flux :
• Temps réel : apprentissage en continu (life long
learning)
• Données limitées : apprendre rapidement à partir
de quelques exemples et de concepts inégalement
représentés.
• Passage à l’échelle : grand nombre de classes
• Protection des connaissances déjà acquises
• Mémoire à long terme : ne pas oublier les
connaissances déjà acquises.

Marin Ferecatu RCP217 — IA pour des données multimédia 11


Online learning vs. batch learning
Static dataset Data streams
Dataset is of a limited size and Data might come with a very high
exact training time per epoch speed → Need real time data
can always be estimated processing, information extraction
and learning mechanism.
Sizes of data classes are usually Stream length for particular classes
similar or can be equalized can differ a lot from one class to
before training another → Want the learning system
to learn equally well on classes of
different sizes.
Ref. [1]

Marin Ferecatu RCP217 — IA pour des données multimédia 12


Online learning vs. batch learning
Static dataset Data streams
The whole dataset is available Streams are potentially of a very big
for learning and retraining at any (infinite) size → Want to avoid storing
moment. historical data.
All the data classes are available At some point, several data classes
at every training epoch, also can never appear again in the stream
training is slow with gradient- → Need to avoid catastrophic
based methods, usually need forgetting of already learned
multiple training epochs information.
Number of classes together with Data classes, never seen by the
labels for each data sample are learning system before, can appear →
provided before training Need a model, able to adapt to new
data classes
Ref. [1]
Marin Ferecatu RCP217 — IA pour des données multimédia 13
Plan de la séance
• Contexte
• Apprentissage en flux vs. apprentissage statique
• Dérive conceptuelle et oubli catastrophique
• Solutions :
• Méthodes par régularisation
• Architectures DNN évolutives
• Méthodes dual-memory

Marin Ferecatu RCP217 — IA pour des données multimédia 14


Apprentissage en flux
Les données en flux :
• Non i.i.d. : données échantillonnés à partir d'une
distribution changeante
• Données dynamiques : gérer les dérives dans la
distribution des données (concept drift) :

Marin Ferecatu RCP217 — IA pour des données multimédia 15


Dérive conceptuelle (concept drift)
Données dynamiques : gérer les dérives dans la
distribution des données (concept drift) :

Marin Ferecatu RCP217 — IA pour des données multimédia 16


Dérive conceptuelle (concept drift)
• 5-class classifier (Linear(2, 6) → ReLU → Linear(6, 6)
→ ReLU() → Linear(6, 5))

Classe 1

Marin Ferecatu RCP217 — IA pour des données multimédia 17


Dérive conceptuelle (concept drift)

Marin Ferecatu RCP217 — IA pour des données multimédia 18


Dérive conceptuelle (concept drift)
Données dynamiques : gérer les dérives dans la
distribution des données (concept drift) :

Conséquence :
• Catastrophic forgetting : oubli catastrophique – les
nouvelles classes (par la rétropropagation) vont
effacer progressivement les anciennes classes

Marin Ferecatu RCP217 — IA pour des données multimédia 19


Oubli catastrophique
Solution non-raisonnable :
• Conserver toutes les données historiques tout en
acquérant les nouvelles données
• Demande trop de place pour tout stocker
• Demande trop de temps pour tout ré-entrainer
Etat de l’art :
• Approches basées sur la régularisation
• Architectures DNN évolutives
• Méthodes « dual-memory »
Marin Ferecatu RCP217 — IA pour des données multimédia 20
Plan de la séance
• Contexte
• Apprentissage en flux vs. apprentissage statique
• Dérive conceptuelle et oubli catastrophique
• Solutions :
• Méthodes par régularisation
• Architectures DNN évolutives
• Méthodes dual-memory

Marin Ferecatu RCP217 — IA pour des données multimédia 21


Régularisation
Régularisation : mis à jour du réseau (des poids)
• Eviter le sur-apprentissage
• Conséquence : meilleure généralisation

Marin Ferecatu RCP217 — IA pour des données multimédia 22


Régularisation
Local Winner Takes All A new type of “non-
(LWTA) [4] Schmidhuber linearity” : seulement les
et al. neurones le plus actifs
propagent l’information et
sont mis à jour pour un
batch d’apprentissage.
MNIST : Split 50%(A)-
50%(B) : train on A, retrain
on B, test on A.
57.84% (sigmoid), 16.63%
(ReLU) to 6.12% (LWTA)

Marin Ferecatu RCP217 — IA pour des données multimédia 23


Régularisation
Learning without Forgetting (LwF) [5] :
• Initialiser un ensemble de paramètres pour chaque
nouvelle tâche : mis à jour sans aucune restriction.
• Un grand pool de paramètres partagés entre
toutes les tâches : mis à jour très lentement pour
éviter de changer les performances sur le taches
déjà apprises
• Désavantages :
• Nécessite des stockage de données pour chaque tâche
• Complexité qui croît linéairement avec le nombre de
tâches

Marin Ferecatu RCP217 — IA pour des données multimédia 24


Régularisation
Elastic Weight Consolidation [6] :
• Cout quadratique supplémentaire pour la
différence entre le modèle mis à jour et sa version
historique, apprise sur les tâches précédentes.
• La pénalité ralentit les mises à jour des
pondérations pertinentes pour les anciennes
tâches.
• Désavantages : assez lourd à mettre en œuvre
(calcul de Ficher Information Matrix - FIM),
possible seulement hors ligne
Marin Ferecatu RCP217 — IA pour des données multimédia 25
Régularisation
PathNet [1] : contrôler le flux d'informations dans le
réseau en créant des (bandes de) chemins
spécifiques pour chaque tache à l'intérieur du
réseau.
Désavantages : des modèles assez lourds, longs à
entrainer, possible seulement hors ligne
Hard Attention Mechanism (HAT) [6] :
masques/poids à valeurs réelles attachés à chaque
couche et utilisées pour faire une rétropropagation
sélective/pondérée.

Marin Ferecatu RCP217 — IA pour des données multimédia 26


Plan de la séance
• Contexte
• Apprentissage en flux vs. apprentissage statique
• Dérive conceptuelle et oubli catastrophique
• Solutions :
• Méthodes par régularisation
• Architectures DNN évolutives
• Méthodes dual-memory

Marin Ferecatu RCP217 — IA pour des données multimédia 27


Architectures DNN évolutives
Progressive NN [7]
• Chaque nouvelle tache
clone le réseau initial avec
• Initialisation aléatoire
• Connexion latérales pour
favoriser le transfert et
accélérer l’apprentissage.

Marin Ferecatu RCP217 — IA pour des données multimédia 28


Architectures DNN évolutives
Dynamically Extendable Networks (DEN) [8]

a. Elastic Weight Consolidation (régularisation)


b. Progressive NN
c. DEN : ré-entraînement partiel et expansion
sélective

Marin Ferecatu RCP217 — IA pour des données multimédia 29


Architectures DNN évolutives
Dynamically Extendable Networks (DEN) [8]

Gauche : réentraînement sélectif


Milieu : expansion
Droite : Split / Duplication

Marin Ferecatu RCP217 — IA pour des données multimédia 30


Plan de la séance
• Contexte
• Apprentissage en flux vs. apprentissage statique
• Dérive conceptuelle et oubli catastrophique
• Solutions :
• Méthodes par régularisation
• Architectures DNN évolutives
• Méthodes dual-memory

Marin Ferecatu RCP217 — IA pour des données multimédia 31


Approches Dual-Memory
Modèles génératifs :
• Ne pas stocker les données historiques, mais générer
des donnés quand le besoin se présente, données qui
ont les mêmes caractéristique que les données
manquantes.

Stockage :
• Utilisation de unités de stockage supplémentaires pour
préserver une partie des données historiques
• Réutilisation de ces données stockées pour renforcer le
classes absentes du flux/stream

Marin Ferecatu RCP217 — IA pour des données multimédia 32


Modelés génératifs
• Utilisation des modèles génératifs dans un scénario
de classification en ligne : élimine la nécessité de
stocker des données historiques
• Le prix à payer est l’entraînement des modèles
génératifs
• GAN (Generative adversarial network) (reseaux
antagonistes/adverses génératifs)

Marin Ferecatu RCP217 — IA pour des données multimédia 33


Rappel GAN
Real data (S) G : réseau générateur
D : réseau discriminateur
G

s* - generated sample s – real data sample La rétro-propagation


«force» G à générer des
Randomly choose x from {s, s*}
échantillons plus réalistes
et D à mieux distinguer s
D
de s*
P(x Є S)

LG,D(x)

Marin Ferecatu RCP217 — IA pour des données multimédia 34


Rappel GAN
Objectif GAN [A] :

Marin Ferecatu RCP217 — IA pour des données multimédia 35


Rappel GAN
Objectif GAN [A] :

Marin Ferecatu RCP217 — IA pour des données multimédia 36


Deep Convolutional GAN (DCGAN) [8]

DCGAN vs. GAN:


● Pooling replaced by strided convolutions

● Batch normalization

● No fully connected hidden layers

● ReLU activation (for G) and

● LeakyReLU activation (for D)

Marin Ferecatu RCP217 — IA pour des données multimédia 37


Modelés génératifs : GAN [1]

Marin Ferecatu RCP217 — IA pour des données multimédia 38


Modelés génératifs : GAN [1]

MNIST
dataset

Marin Ferecatu RCP217 — IA pour des données multimédia 39


Modelés génératifs : GAN [1]

LSUN
dataset

Marin Ferecatu RCP217 — IA pour des données multimédia 40


Modelés génératifs : GAN [1]
• Les GAN nécessitent beaucoup de données
d’entraînement
• Les GAN marchent moins bien pour des données
complexes (comme le dataset LSUN)
• GAN : entraînement souvent pas stable
(convergence lente)

Marin Ferecatu RCP217 — IA pour des données multimédia 41


Approches Dual-Memory
Stockage (stocker plutôt que générer les données
manquantes) :
• Une partie des données du flux
• Comprimer / réduire la dimension des éléments
pour pouvoir stocker plus d’éléments

Solution : Auto-encodeurs utilisés comme modèles


pseudo-génératifs.

Marin Ferecatu RCP217 — IA pour des données multimédia 42


Rappel auto-encodeurs

Marin Ferecatu RCP217 — IA pour des données multimédia 43


Rappel auto-encodeurs
MNIST : vanilla AE
Input size : 784
Code size : 64

Marin Ferecatu RCP217 — IA pour des données multimédia 44


Auto-encodeur: perte (loss)

Marin Ferecatu RCP217 — IA pour des données multimédia 45


Apprentissage en flux

Marin Ferecatu RCP217 — IA pour des données multimédia 46


Apprentissage en flux

LSUN dataset

Marin Ferecatu RCP217 — IA pour des données multimédia 47


Auto-encodeur: perte (loss)
Phénomène d’oubli dans les auto-encodeurs

Marin Ferecatu RCP217 — IA pour des données multimédia 48


Bibliographie
1. Besedin A., Continual Forgetting-Free Deep Learning from High-dimensional Data Streams, PhD Thesis,
2019
2. Bifet. Et al, Machine Learning for Data Streams: with Practical Examples in MOA, The MIT Press 2018
3. Parisi et al., Continual lifelong learning with neural networks: A review. arXiv:1802.07569, 2018.
4. Srivastava et al., Compete to compute. Advances in neural information processing systems, pages 2310–
2318, 2013.
5. Li et al. Learning without forgetting. IEEE Transactions on PAMI, 2017
6. Serra et al., Overcoming catastrophic forgetting with hard attention to the task. arXiv:1801.01423, 2018.
7. Rusu et al. Progressive neural networks. arXiv:1606.04671, 2016
8. Yoon et al., Lifelong learning with dynamically expandable networks. ICLR, 2018.
9. Radford et al., Unsupervised representation learning with deep convolutional generative adversarial
networks. arXiv:1511.06434.

Web :
A. [Link]

Marin Ferecatu RCP217 — IA pour des données multimédia 49

Vous aimerez peut-être aussi