0% ont trouvé ce document utile (0 vote)
39 vues33 pages

Data Science Ou V Rage

Ce document traite de la science des données, incluant la collecte, la gestion, l'analyse et la visualisation de grands ensembles de données. Il est destiné aux étudiants de master, aux ingénieurs et aux data scientists, fournissant des fondements théoriques et pratiques ainsi que des algorithmes associés. L'ouvrage vise à établir un lien entre la théorie et les applications concrètes dans le domaine de la science des données.

Transféré par

emmanuel yakam
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
39 vues33 pages

Data Science Ou V Rage

Ce document traite de la science des données, incluant la collecte, la gestion, l'analyse et la visualisation de grands ensembles de données. Il est destiné aux étudiants de master, aux ingénieurs et aux data scientists, fournissant des fondements théoriques et pratiques ainsi que des algorithmes associés. L'ouvrage vise à établir un lien entre la théorie et les applications concrètes dans le domaine de la science des données.

Transféré par

emmanuel yakam
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Science

Massih-Reza Amini† , Renaud Blanch† , Marianne Clausel‡ , Jean-Baptiste Durand‡ ,


Eric Gaussier† , Jérôme Malick‡ , Chistophe Picard‡ , Vivien Quéma† , Georges Quénot†
Université Grenoble Alpes, Grenoble INP, CNRS
† Laboratoire d’Informatique de Grenoble
‡ Laboratoire Jean Kunzmann

Abstract

La data science, ou science des données, est la discipline qui traite de la collecte, de la préparation,
de la gestion, de l’analyse, de l’interprétation et de la visualisation de grands ensembles de données com-
plexes. Elle n’est pas seulement concernée par les outils et les méthodes pour obtenir, gérer et analyser
les données ; elle consiste aussi à en extraire de la valeur et de la connaissance.
Cet ouvrage présente les fondements scientifiques et les composantes essentielles de la science des données,
à un niveau accessible aux étudiants de master et aux élèves ingénieurs. Notre souci a été de proposer
un exposé cohérent reliant la théorie aux algorithmes développés dans ces domaines. Il s’adresse aux
chercheurs et ingénieurs qui abordent les problématiques liées à la science des données, aux data scien-
tists de PME qui utilisent en profondeur les outils d’apprentissage, mais aussi aux étudiants de master,
doctorants ou encore futurs ingénieurs qui souhaitent un ouvrage de référence en data science.
À qui s’adresse ce livre ?
• Aux développeurs, statisticiens, étudiants et chefs de projets ayant à résoudre des problèmes de data
science.
• Aux data scientists, mais aussi à toute personne curieuse d’avoir une vue d’ensemble de l’état de
l’art du machine learning.

1
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page I

☛✟ ☛✟
✡✠ ✡✠

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page II

☛✟ ☛✟
✡✠ ✡✠

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page III

Table des matières

Table des figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IX

Liste des algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII

Chapitre 1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
☛✟ ☛✟
✡✠ Chapitre 2 ✡✠
Prétraitement des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Prétraitement des données
textuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 Normalisation et filtrage . . . . . . . . . . . . . . . . . . . 7
2.1.3 Filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Prétraitement des données image
ou vidéo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Représentations globales . . . . . . . . . . . . . . . . . . . 12
2.2.2 Représentations locales . . . . . . . . . . . . . . . . . . . . 16
2.2.3 Agrégation de représentations locales . . . . . . . . . . . . . 17
2.2.4 Représentations apprises . . . . . . . . . . . . . . . . . . . 19
2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Chapitre 3
Gestion de données large-échelle et systèmes distribués . . . . . . 21
3.1 Les limites des systèmes
traditionnels de gestion de données . . . . . . . . . . . 21

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page IV

IV – DATA SCIENCE

3.1.1 Les besoins liés au traitement de grandes masses de données . 22


3.1.2 Limites des architectures incrémentales . . . . . . . . . . . . 23
3.2 L’architecture Lambda pour le
traitement de grandes masses
de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 La couche batch : traitement de
données par lots . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Caractéristiques du jeu de données
principal . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.2 Stockage du jeu de données principal . . . . . . . . . . . . . 29
3.3.3 Traitement de données par lots . . . . . . . . . . . . . . . . 30
3.4 La couche service : stockage
et requêtes sur les vues batch . . . . . . . . . . . . . . . 33
3.4.1 Remarque préliminaire sur le stockage
des vues batch . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.2 Stockage des vues batch . . . . . . . . . . . . . . . . . . . 35
☛✟ ☛✟
✡✠ ✡✠
3.5 La couche vitesse : traitement de flux de données,
stockage et requêtes sur les vues temps réel . . . . . 36
3.5.1 Traitement de flux de données . . . . . . . . . . . . . . . . 37
3.5.2 Stockage des vues temps réel . . . . . . . . . . . . . . . . . 38
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Chapitre 4
Calcul haute performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.1.2 Hiérarchies du parallélisme . . . . . . . . . . . . . . . . . . 44
4.1.3 Classification des plateformes . . . . . . . . . . . . . . . . . 47
4.1.4 Coûts de communication . . . . . . . . . . . . . . . . . . . 48
4.2 Principes de conception
des algorithmes . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.1 Techniques de décomposition . . . . . . . . . . . . . . . . . 51
4.2.2 Caractéristiques des tâches
et des interactions . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.3 Équilibrage des ressources . . . . . . . . . . . . . . . . . . . 54
4.2.4 Modèles d’algorithmes parallèles . . . . . . . . . . . . . . . 56

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page V

TABLE DES MATIÈRES – V

4.3 Modèles analytiques . . . . . . . . . . . . . . . . . . . . . 57


4.3.1 Métriques de performances . . . . . . . . . . . . . . . . . . 58
4.3.2 Passage à l’échelle des systèmes parallèles . . . . . . . . . . 59
4.3.3 Effet de la granularité . . . . . . . . . . . . . . . . . . . . . 61
4.3.4 Notion d’iso-efficacité . . . . . . . . . . . . . . . . . . . . . 62
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

Chapitre 5
Optimisation pour l’analyse de données . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.1 Apprentissage et optimisation . . . . . . . . . . . . . . 66
5.2 Introduction à l’optimisation . . . . . . . . . . . . . . . 72
5.2.1 Problèmes d’optimisation . . . . . . . . . . . . . . . . . . . 72
5.2.2 Analyse convexe pour impatients . . . . . . . . . . . . . . . 74
5.2.3 Algorithmes d’optimisation . . . . . . . . . . . . . . . . . . 77
5.3 Algorithmes en science des données . . . . . . . . . . . 82

☛✟ ☛✟
5.3.1 Algorithmes incrémentaux . . . . . . . . . . . . . . . . . . 83
✡✠ ✡✠
5.3.2 Algorithmes distribués . . . . . . . . . . . . . . . . . . . . 87
5.3.3 Au-delà de ce chapitre . . . . . . . . . . . . . . . . . . . . 91
5.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

Chapitre 6
Décomposition matricielle/tensorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.2 La SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.2.1 Quelques rappels d’algèbre linéaire . . . . . . .. . . . . . . 96
6.2.2 Approximation de rang faible . . . . . . . . . . . . . . . . . 97
6.2.3 SVD et analyse en composantes principales . . . . . . . . . . 99
6.2.4 Algorithme pour déterminer la SVD d’une matrice . . . . . . 100
6.3 Décomposition en matrices
non négatives . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.3.1 Algorithme de Seung et Lee . . . . . . . . . . . . . . . . . . 105
6.3.2 Algorithme des moindres carrés alternés . . . . . . . . . . . 107
6.3.3 Comparaison de la SVD et de la NMF . . . . . . . . . . . . 107
6.4 Décomposition tensorielle . . . . . . . . . . . . . . . . . 108
6.4.1 Décomposition canonique polyadique . . . . . . . . . . . . . 109

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page VI

VI – DATA SCIENCE

6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 111


6.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Chapitre 7
Modèles génératifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.1.1 Modèles graphiques . . . . . . . . . . . . . . . . . . . . . . 117
7.1.2 Modèles à variables latentes . . . . . . . . . . . . . . . . . . 117
7.2 Introduction à la statistique
bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7.2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7.2.2 Algorithmes génériques pour l’inférence bayésienne . . . . . . 123
7.3 Inférence dans les modèles
à variables latentes . . . . . . . . . . . . . . . . . . . . . 127
7.3.1 Modèles probabilistes graphiques . . . . . . . . . . . . . . . 127

☛✟ ☛✟
7.3.2 Mélanges . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
✡✠ ✡✠
7.3.3 Analyse en composantes principales
probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.3.4 Chaînes de Markov cachées . . . . . . . . . . . . . . . . . . 134
7.3.5 Modèles hiérarchiques à variables latentes . . . . . . . . . . 136
7.4 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

Chapitre 8
Modèles discriminants. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.1 Approches supervisées . . . . . . . . . . . . . . . . . . . 146
8.1.1 Modèles binaires . . . . . . . . . . . . . . . . . . . . . . . 147
8.1.2 Modèles multi-classes . . . . . . . . . . . . . . . . . . . . . 161
8.2 Approches semi-supervisées . . . . . . . . . . . . . . . . 164
8.2.1 Modèles graphiques . . . . . . . . . . . . . . . . . . . . . . 165
8.2.2 Modèles de mélange . . . . . . . . . . . . . . . . . . . . . . 171
8.2.3 Modèles discriminants . . . . . . . . . . . . . . . . . . . . . 171
8.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page VII

TABLE DES MATIÈRES – VII

Chapitre 9
Deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
9.1 Neurone formel . . . . . . . . . . . . . . . . . . . . . . . . 178
9.2 Réseaux simples . . . . . . . . . . . . . . . . . . . . . . . 179
9.2.1 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . 180
9.2.2 ADALINE . . . . . . . . . . . . . . . . . . . . . . . . . . 183
9.2.3 Perceptrons multicouches (PMC) . . . . . . . . . . . . . . . 185
9.3 Réseaux à propagation avant . . . . . . . . . . . . . . . 186
9.3.1 Composition de fonctions . . . . . . . . . . . . . . . . . . . 186
9.3.2 Fonction-objectif et descente de gradient stochastique par
mini-lots . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
9.3.3 Calcul des gradients par rétro-propagation de l’erreur . . . . 188
9.3.4 Architecture modulaire . . . . . . . . . . . . . . . . . . . . 190
9.3.5 Réseaux quelconques . . . . . . . . . . . . . . . . . . . . . 195
9.3.6 Différentiation automatique . . . . . . . . . . . . . . . . . . 196
9.4 Réseaux convolutifs . . . . . . . . . . . . . . . . . . . . .
☛✟ ☛✟
197

✡✠ ✡✠
9.4.1 Couche de convolution . . . . . . . . . . . . . . . . . . . . 197
9.4.2 Changements de résolution . . . . . . . . . . . . . . . . . . 199
9.4.3 Passage à des couches complètement connectées . . . . . . . 200
9.4.4 Un exemple : AlexNet . . . . . . . . . . . . . . . . . . . . . 200
9.5 Optimisations supplémentaires . . . . . . . . . . . . . . 202
9.5.1 Traitement par mini-lots . . . . . . . . . . . . . . . . . . . 202
9.5.2 Moment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
9.5.3 Fonctions d’activation . . . . . . . . . . . . . . . . . . . . . 203
9.5.4 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
9.5.5 Normalisation de lots . . . . . . . . . . . . . . . . . . . . . 204
9.5.6 Augmentation de données . . . . . . . . . . . . . . . . . . . 205
9.6 Réseaux pour la catégorisation d’images . . . . . . . . 206
9.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

Chapitre 10
Visualisation interactive d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 211
10.2 Des données au graphique . . . . . . . . . . . . . . . . . 214
10.2.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . 214

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page VIII

VIII – DATA SCIENCE

10.2.2 L’image . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216


10.2.3 Encodage visuel . . . . . . . . . . . . . . . . . . . . . . . . 224
10.3 Encodages avancés . . . . . . . . . . . . . . . . . . . . . . 227
10.3.1 Utilisation multiple des variables
graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . 227
10.3.2 Encodage des liens entre individus . . . . . . . . . . . . . . 230
10.4 Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . 234
10.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253

☛✟ ☛✟
✡✠ ✡✠

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page IX

Table des figures

2.1 Filtres de Gabor circulaire (gauche) et elliptique (droite). La


zone indiquée correspond à une extension d’un écart-type sur
la gaussienne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Banc de filtres de Gabor elliptiques avec 8 orientations et 4
échelles, partie réelle. . . . . . . . . . . . . . . . . . . . . . . . . 15

☛✟ 3.1 Architecture incrémentale. . . . . . . . . . . . . . . . . . . . . . 23 ☛✟


✡✠ 3.2 L’architecture Lambda. . . . . . . . . . . . . . . . . . . . . . . 25 ✡✠
3.3 Exemple de stockage normalisé. . . . . . . . . . . . . . . . . . . 34
3.4 Exemple de stockage dénormalisé. . . . . . . . . . . . . . . . . 35
3.5 Architecture d’un système de traitement de flux de données. . . 37

4.1 Évolution des puissances de calcul des machines du Top 500


https://top500.org . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Classification de Flynn . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Méthodologie de conception d’une approche parallèle . . . . . . 50
4.4 Évolution de l’accélération pour différentes lois . . . . . . . . . 60

5.1 Illustration de la convexité avec des fonctions de R dans R.


À gauche, une fonction convexe ; à droite, une fonction non
convexe (dont on note qu’elle admet un minimum local en ω
qui n’est pas un minimum). . . . . . . . . . . . . . . . . . . . . 75
5.2 Illustration de l’inégalité (5.12) pour une fonction convexe de
R dans R. Une fonction convexe est toujours au-dessus de ses
tangentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page X

X – DATA SCIENCE

5.3 Dessin des lignes de niveau de deux fonctions de R2 dans R


avec les itérés de l’algorithme du gradient, illustrant la vitesse
de convergence (5.15) et le rôle du conditionnement κ = µ/L.
Quand κ est grand (comme à droite), le problème est bien
conditionné et l’algorithme converge vite ; plus le ratio est petit
(comme à gauche), plus le problème est dur et plus l’algorithme
patine. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4 Itérations des algorithmes du gradient (à gauche) et du gra-
dient stochastique (à droite) sur les lignes de niveau d’une
fonction de R2 dans R. L’espérance des directions de descente
correspond à la direction du gradient et on récupère des garan-
ties de convergence si on peut aussi contrôler la variance des
directions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.5 Représentation schématique du cadre d’optimisation distri-
buée : une machine-maître coordonne les calculs effectués en
parallèle sur les machines-esclaves, stockant chacune une partie
☛✟ ☛✟
des données. Soulignons que les algorithmes ne communiquent
✡✠ ✡✠
que des résultats de calcul, pas des données brutes. . . . . . . 89

6.1 Tranches et fibres d’un tenseur du troisième ordre . . . . . . . 108

7.1 Un graphe d’indépendance conditionnelle non orienté . . . . . . 128


7.2 Un DAG d’indépendance conditionnelle orienté acyclique. . . . 129
7.3 Modèle graphique définissant les dépendances entre variables
aléatoires d’une CMC. . . . . . . . . . . . . . . . . . . . . . . . 135
7.4 Modèle graphique définissant les dépendances entre variables
aléatoires du LDA. . . . . . . . . . . . . . . . . . . . . . . . . . 137

8.1 Illustration du fonctionnement de l’algorithme d’Adaboost sur


un problème jouet où la combinaison finale des classifieurs li-
néaires de base (ou faibles) conduit à un classifieur non li-
néaire. Le vecteur normal de chaque classifieur faible pointe
vers le demi-espace des exemples positifs (cercles pleins et les
exemples mal classés sont encerclés). À une itération donnée,
le classifieur courant tente de bien classer les exemples mal
classés par celui de l’itération précédente et les poids w de ces
classifieurs, intervenant dans le vote majoritaire final, sont in-
versement proportionnels à leurs erreurs de classification. . . . 150

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XI

TABLE DES FIGURES – XI

8.2 Hyperplans pour un problème de classification linéairement sé-


parable en dimension 2. Les vecteurs de support appartenant
aux hyperplans marginaux d’équations ⟨ω̄ ω , x⟩ + w0 = ±1 sont
encerclés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
8.3 Hyperplans linéaires pour un problème de classification non li-
néairement séparable. Les vecteurs de support sont encerclés.
Soit ces vecteurs reposent sur un des hyperplans marginaux,
soit ce sont des points aberrants. La distance d’un point aber-
rant x à l’hyperplan marginal associé à sa classe est ||ω̄ωξ || . . . . 157

9.1 Illustration d’un neurone formel. . . . . . . . . . . . . . . . . . 178


9.2 Architecture d’un perceptron inspiré du système perceptif et
composé de quatre composantes principales : la rétine, les fonc-
tions d’association, les poids synaptiques et l’unité à seuil. . . . 181
9.3 Illustration de la règle de mise à jour de l’algorithme du per-
ceptron (eq. 9.8) avec l’exemple (x3 , −1) choisi, qui est mal
classé par l’hyperplan de vecteur normal ω (t) . . . . . . . . . . . 183
☛✟ 9.4 Illustration des solutions trouvées par les algorithmes du per- ☛✟
✡✠ ceptron (en pointillés) et de l’adaline (en trait plein) pour un ✡✠
problème de classification linéairement séparable. . . . . . . . . 184
9.5 Architecture d’un perceptron multicouche à une couche cachée
(de profondeur 2). Sur cet exemple, les paramètres des biais
sont introduits par des poids liés à deux unités supplémentaires
associés à la couche d’entrée et à la première couche cachée
ayant respectivement les valeurs fixées x0 = 1 et z0 = 1. . . . . 186
9.6 Architecture modulaire d’un système d’entraînement d’un ré-
seau multicouche (inspiré de LeCun et Ranzato (2013)). Pro-
pagation avant : du bas vers le haut ; rétro-propagation selon
les données : du haut vers le bas ; rétro-propagation selon les
paramètres : du haut vers la gauche. . . . . . . . . . . . . . . . 191
9.7 Module « couche ». Propagation avant : du bas vers le haut ;
rétro-propagation selon les données : du haut vers le bas ;
rétro-propagation selon les paramètres : du haut vers la gauche. 192

10.1 Le quartet d’Anscombe (1973) visualisé. . . . . . . . . . . . . . 212


10.2 La carte (à gauche) de l’épidémie de choléra à Londres en 1854
par le docteur J. Snow. À droite est visualisé un détail centré
sur la fontaine infectée. . . . . . . . . . . . . . . . . . . . . . . 212

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XII

XII – DATA SCIENCE

10.3 Les pertes humaines lors de la campagne de Russie par C. J. Mi-


nard (1869). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
10.4 Photo tirée du no 58 de février 1958 de Life Magazine par Gre-
gory (1970) pour illustrer l’émergence des formes selon la Ges-
talt. Ce motif est aussi présent dans le tableau le Torero Hal-
lucinogène de Salvador Dalí (1970). . . . . . . . . . . . . . . . . 217
10.5 Des groupes émergent du fait de leur proximité ou de leur res-
semblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
10.6 Trouver une marque foncée au milieu des claires (gauche) ou
un carré au milieu de cercles (centre) demande un temps qui ne
dépend pas du nombre de marques, alors que trouver le cercle
foncé au milieu de cercles et de carrés clairs ou foncés (droite)
prend un temps qui croît linéairement en fonction du nombre
de marques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
10.7 Capture de l’interface de Gapminder. . . . . . . . . . . . . . . . 225
10.8 Le jeu de données Iris, à quatre dimensions quantitatives, re-
☛✟ ☛✟
présenté par une matrice de nuages de points (gauche) et des
✡✠ ✡✠
coordonnées parallèles (droite). . . . . . . . . . . . . . . . . . . 228
10.9 Évolution des écarts à la moyenne des taux de chômage de
divers états des États-Unis d’Amérique visualisée grâce à des
Horizon Graphs. . . . . . . . . . . . . . . . . . . . . . . . . . . 230
10.10Deux représentations « nœuds-liens » d’un même arbre avec
différents algorithmes de placement. . . . . . . . . . . . . . . . 231
10.11Deux représentations d’arbres utilisant l’emboîtement (de
cercles et de rectangles) pour figurer la hiérarchie. . . . . . . . 232
10.12Un réseau visualisé sous forme de diagramme « nœuds-liens »
(gauche) et d’une matrice d’adjacence (droite). . . . . . . . . . 233
10.13Visualisation d’un jeu de données de voitures. . . . . . . . . . . 236

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XIII

Liste des algorithmes

1 Réduction de Householder d’une matrice A sous forme bi-


diagonale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2 Décomposition QR d’une matrice B . . . . . . . . . . . . . . 103
☛✟ 3 Version de l’algorithme de la NMF dans le cas simple où A ☛✟
✡✠ est un vecteur y . . . . . . . . . . . . . . . . . . . . . . . . . 105 ✡✠
4 Version générale de l’algorithme de Seung et Lee . . . . . . . 106
5 Algorithme ALS . . . . . . . . . . . . . . . . . . . . . . . . . 107
6 Algorithme des moindres carrés alternés (ALS) pour la dé-
composition polyadique . . . . . . . . . . . . . . . . . . . . . 110
7 Algorithme d’acceptation-rejet . . . . . . . . . . . . . . . . . 124
8 Algorithme de Métropolis Hastings . . . . . . . . . . . . . . . 125
9 Algorithme de Gibbs . . . . . . . . . . . . . . . . . . . . . . 126
10 Algorithme de LDA . . . . . . . . . . . . . . . . . . . . . . . 138
11 Algorithme d’Adaboost . . . . . . . . . . . . . . . . . . . . . 149
12 SVM à marge dure . . . . . . . . . . . . . . . . . . . . . . . . 156
13 SVM à marge souple . . . . . . . . . . . . . . . . . . . . . . . 160
14 Stratégie des codes correcteurs d’erreur pour la classification
multi-classe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
15 Propagation des étiquettes pour l’apprentissage semi-supervisé167
16 Algorithme PEGASOS Shalev-Shwartz et al. (2011) . . . . . 174
17 Algorithme de Perceptron . . . . . . . . . . . . . . . . . . . . 182

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XIV

☛✟ ☛✟
✡✠ ✡✠

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XV

Bibliographie

W. Aigner, S. Miksch, H. Schumann et C. Tominski : Visualization


of time-oriented data. Springer, 2011.

E.L. Allwin, R.E. Schapire et Y. Singer : Reducing multiclass to


☛✟ binary : a unifying approach for margin classifiers. Journal of Machine ☛✟
✡✠ Learning Research, 1 :113 – 141, 2000. ✡✠

M.-R. Amini : Apprentissage machine : de la théorie à la pratique. Ey-


rolles, 2015.

M.-R. Amini et E. Gaussier : Recherche d’information : applications,


modèles et algorithmes. 2de édition, Eyrolles, 2017.

M.-R. Amini, N. Usunier et F. Laviolette : A transductive bound for


the voted classifier with an application to semi-supervised learning. In
Advances in Neural Information Processing Systems 21, pages 65–72,
2009.

H. Amoualian, M. Clausel, E. Gaussier et M.-R. Amini :


Streaming-lda : A copula-based approach to modeling topic dependen-
cies in document streams. In Proceedings of the 22nd ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining,
pages 695–704, 2016.

D.P. Anderson : BOINC : a system for public-resource computing and


storage. In Fifth IEEE/ACM International Workshop on Grid Compu-
ting, 2004.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XVI

XVI – DATA SCIENCE

J.A. Anderson : Logistic discrimination. Handbook of Statistics, 2 :


169–191, 1982.

R. J. Andrews : An interactive timeline of the most iconic infographics,


2017.
http://infowetrust.com/scroll/.

F.J. Anscombe : Graphs in statistical analysis. American Statistician,


27(1) :17–21, 1973.

L. Baldo, L. Brenner, L.G. Fernandes, P. Fernandes et A. Sales :


Performance models for master/slave parallel programs. Electronic
Notes in Theoretical Computer Science, 2005.

G. Balikas et M.R. Amini : Twise at semeval-2016 task 4 : Twitter


sentiment classification. CoRR, abs/1606.04351, 2016.

S. Basu, A. Banerjee et R.J. Mooney : Semi-supervised clustering by


☛✟ seeding. In Proceedings of the Nineteenth International Conference on ☛✟
✡✠ Machine Learning, 2002. ✡✠

A.G. Baydin, B.A. Pearlmutter et A. Radul : Automatic differentia-


tion in machine learning : a survey. CoRR, abs/1502.05767, 2015.

M. Behrisch, B. Bach, R.N. Henry, T. Schreck et J.-D. Fekete :


Matrix reordering methods for table and network visualization. Com-
puter Graphics Forum, 35 :24, 2016.

M.W. Berry, D. Mezher, B. Philippe et A. Sameh : Handbook of


parallel computing and statistics, chapitre Parallel algorithms for the
singular value decomposition. Statistics, textbooks and monographs.
Chapman & Hall/CRC, 2005.

J. Bertin : Sémiologie graphique. Mouton/Gauthier-Villars, 1967.

C. Bishop : Pattern recognition and machine learning. Springer Verlag,


2006.

C. Bishop et J. Lassere : Generative or discriminative ? Getting the


best of both worlds. Bayesian Statistics, 8 :3–24, 2007.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XVII

BIBLIOGRAPHIE – XVII

R. Blanch, R. Dautriche et G. Bisson : Dendrogramix : a hybrid


tree-matrix visualization technique to support interactive exploration
of dendrograms. In Proceedings of PacificVis 2015, 2015.

R. Blanch et E. Lecolinet : Browsing zoomable treemaps :


structure-aware multi-scale navigation techniques. IEEE Transactions
on Visualization and Computer Graphics, 13(6) :1248–1253, 2007.

L. Bottou, F.E. Curtis et J. Nocedal : Optimization methods for


large-scale machine learning. arXiv preprint :1606.04838, 2017.

S. Boucheron, O. Bousquet et G. Lugosi : Theory of classification :


a survey of some recent advances. ESAIM : Probability and Statistics,
2005.

S. Boyd et L. Vandenberghe : Convex optimization. Cambridge Uni-


versity Press, 2004.

☛✟ C. Brewer : ColorBrewer : color advice for cartography, 2018. ☛✟


✡✠ http://www.ColorBrewer.org. ✡✠

S. Bubeck : Convex optimization : algorithms and complexity. Founda-


tions and Trends in Machine Learning, 8(3-4) :231–357, 2015.

S.K. Card et J. Mackinlay : The structure of the information visuali-


zation design space. In proc. InfoVis’97, 1997.

J.D. Carroll et J.J. Chang : Analysis of individual differences in mul-


tidimensional scaling via an n-way generalization of Eckart-Young de-
composition. Psychometrika, 35 :283–319, 1970.

E.H. Chi et J.T. Riedl : An operator interaction framework for visuali-


zation systems. In proc. InfoVis’98, 1998.

D.M. Chitty : Fast parallel genetic programming : multi-core CPU versus


many-core GPU. Soft Computing, 2012.

J. Choi, D.W. Walker et J.J. Dongarra : Pumma : Parallel univer-


sal matrix multiplication algorithms on distributed memory concurrent
computers. Concurrency : Practice and Experience, 1994.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XVIII

XVIII – DATA SCIENCE

W.S. Cleveland et R. McGill : Graphical perception : theory, expe-


rimentation and application to the development of graphical methods.
Journal of American Statistics Assocation, 79(387) :531–554, 1984.

I. Cohen, F.G. Cozman, N. Sebe, M.C. Cirelo et T.S. Huang : Se-


misupervised learning of classifiers : theory, algorithms and their appli-
cation to human-computer interaction. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 26(12) :1553–1567, 2004.

M. Cordeil, A. Cunningham, T. Dwyer, B.H. Thomas et K. Mar-


riott : Imaxes : immersive axes as embodied affordances for interactive
multivariate data visualisation. In Proc. ACM UIST, 2017.

F.G. Cozman et I. Cohen : Unlabeled data can degrade classification


performance of generative classifiers. In Fifteenth International Florida
Artificial Intelligence Society Conference, 2002.

G. Csurka, C. R. Dance, L. Fan, J. Willamowski et C. Bray : Vi-


☛✟ sual categorization with bags of keypoints. In Workshop on Statistical ☛✟
✡✠ Learning in Computer Vision, ECCV, 2004. ✡✠

M. Danelutto, T. De Matteis, G. Mencagli et M. Torquati : A


divide-and-conquer parallel pattern implementation for multicores. In
Proceedings of the 3rd International Workshop on Software Engineering
for Parallel Systems, 2016.

S. Deerwester, S.T. Dumais, G.W. Furnas, T.K. Landauer et


R. Harshman : Indexing by latent semantic analysis. Journal of the
American Society for Information Science, 41(6) :391–407, 1990.

J. Diebolt et C.P. Robert : Estimation of finite mixture distributions


through bayesian sampling. Journal of the Royal Statistical Society.
Series B (Methodological), 56(2) :363–375, 1994.

T.G. Dietterich et G. Bakiri : Solving multiclass learning problems


via error-correcting output codes. Journal of Artificial Intelligence Re-
search, 2 :263–286, 1995.

S. Donnet et J.-M. Marin : An empirical bayes procedure for the


selection of gaussian graphical models. Statistics and Computing, 22
(5) :1113–1123, 2012.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XIX

BIBLIOGRAPHIE – XIX

R.O. Duda, P.E. Hart et D.G. Stork : Pattern classification. Wiley,


2001.

N. Elmqvist, P. Dragicevic et J.-D. Fekete : Rolling the dice :


multidimensional visual exploration using scatterplot matrix naviga-
tion. IEEE Transactions on Visualization and Computer Graphics, 14
(6) :1141–1148, 2008.

Y. Ephraim et N. Merhav : Hidden Markov processes. IEEE Transac-


tions on Information Theory, 48 :1518–1569, 2002.

R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang et C.-J. Lin : Li-
blinear : a library for large linear classification. Journal of Machine
Learning Research, 9 :1871–1874, 2008.

P. Fearnhead : Exact and efficient bayesian inference for multiple chan-


gepoint problems. Statistics and Computing, 16(2) :203–213, 2006.

☛✟ J.P. Fishburn : Analysis of speedup in distributed algorithms. Ann Arbor, ☛✟


✡✠ Mich. : UMI Research Press, 1984. ✡✠

M.J. Flynn : Some computer organizations and their effectiveness. IEEE


Trans. Computers, 1972.

I.T. Foster : Designing and building parallel programs : concepts and


tools for parallel software engineering. Addison-Wesley Longman Publi-
shing Co., Inc., 1995.

S.C. Fralick : Learning to recognize patterns without a teacher. IEEE


Transactions on Information Theory, 13(1) :57–64, 1967.

Y. Freund : Boosting a weak learning algorithm by majority. Information


and Computation, 121 :256–285, 1995.

K. Fukunaga : Introduction to statistical pattern recognition. Academic


Press, New York, USA, 1972.

E. Gaussier et C. Goutte : Relation between PLSA and NMF and


implications. In Proceedings of the 28th Annual International ACM
SIGIR Conference on Research and Development in Information Re-
trieval, 2005.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XX

XX – DATA SCIENCE

M.R. Genesereth et N.J. Nilsson : Logical foundations of artificial


intelligence. Morgan Kaufmann Publishers Inc., San Francisco, CA,
USA, 1987. ISBN 0-934613-31-1.

M. Ghoniem, J.-D. Fekete et P. Castagliola : A comparison of the


readability of graphs using node-link and matrix-based representations.
In Proceedings of InfoVis 2004, 2004.

N. Gillis : Introduction to nonnegative matrix factorization. arXiv pre-


print arXiv :1703.00663, 2017.

A.Y. Grama, A. Gupta et V. Kumar : Isoefficiency : measuring the


scalability of parallel algorithms and architectures. IEEE Parallel Dis-
tributed Technology : Systems Applications, 1993.

D.A. Green : A colour scheme for the display of astronomical intensity


images. Bull. Astr. Soc. India, 39 :289–295, 2011.

☛✟ ☛✟
R.L. Gregory : The intelligent eye. Weidenfeld and Nicolson, 1970.
✡✠ ✡✠
J. Hahnfeld, T. Cramer, M. Klemm, C. Terboven et M.S. Mül-
ler : A pattern for overlapping communication and computation with
OpenMP target directives. In Scaling OpenMP for Exascale Perfor-
mance and Portability, 2017.

R.W. Hamming : Error detecting and error correcting codes. Bell System
Technical Journal, 29(2) :147–160, 1950.

R.A. Harshman : Foundations of the parafac procedure : models and


conditions for an explanatory multi-modal factor analysis. Rapport
technique, UCLA Working Papers in Phonetics, 16, 1970.

K. He, X. Zhang, S. Ren et J. Sun : Deep residual learning for image


recognition. 2016 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), 2016.

N. Henry, J.-D. Fekete et M.J. McGuffin : NodeTrix : hybrid repre-


sentation for analyzing social networks. IEEE Transactions on Visuali-
zation and Computer Graphics, 13(6) :1302–9, 2007.

J.-B. Hiriart-Urruty et C. Lemaréchal : Fundamentals of convex


analysis. Springer Verlag, Heidelberg, 2001.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXI

BIBLIOGRAPHIE – XXI

F.L. Hitchcock : The expression of a tensor or a polyadic as a sum of


products. Journal of Mathematics and Physics, 6 :164–189, 1927.
T. Hofmann : Probabilistic latent semantic indexing. In Proceedings
of the 22nd Annual International ACM SIGIR Conference on Research
and Development in Information Retrieval, 1999.
G. Huang, Z. Liu, L. van der Maaten et K.Q. Weinberger : Densely
connected convolutional networks. In Proceedings of the IEEE Confe-
rence on Computer Vision and Pattern Recognition, 2017.
A. Inselberg : The plane with parallel coordinates. The Visual Compu-
ter, 1(2) :69–91, 1985.
Sergey Ioffe et Christian Szegedy : Batch normalization : accelerating
deep network training by reducing internal covariate shift. In Procee-
dings of the 32nd International Conference on Machine Learning, 2015.

☛✟ ☛✟
Michael J.M. et J.-M. Robert : Quantifying the space-efficiency of
✡✠ ✡✠
2D graphical representations of trees. Information Visualization, 9
(2) :115–140, 2010.
T. Joachims : Making large-scale SVM learning practical. In B. Schöl-
kopf, C. Burges et A. Smola, éditeurs : Advances in kernel methods -
support vector learning, chapitre 11. MIT Press, Cambridge, MA, 1999.
S. Johnson : The Ghost Map : the Story of London’s Most Terrifying
Epidemic and How it Changed Science, Cities and the Modern World.
Riverhead, 2006.
Y.-M. Kim, M.-R. Amini, C. Goutte et P. Gallinari : Multi-view
clustering of multilingual documents. In Proceedings of the 33rd In-
ternational ACM SIGIR Conference on Research and Development in
Information Retrieval, SIGIR ’10, pages 821–822, 2010.
Y.M. Kim, J.F. Pessiot, M.R. Amini et P. Gallinari : An extension
of PLSA for document clustering. In Proceedings of the 17th ACM
Conference on Information and Knowledge Management, CIKM 2008,
pages 1345–1346, 2008.
T.G. Kolda et B.W. Bader : Tensor decompositions and applications.
SIAM Rev., 51(3) :455–500, 2009.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXII

XXII – DATA SCIENCE

Erricos John Kontoghiorghes : Handbook of parallel computing and


statistics. CRC Press, 2005.

A. KrithaM.ra, M.-R. Amini, J.-M. Renders et C. Goutte :


Semi-supervised document classification with a mislabeling error mo-
del. In Advances in Information Retrieval , 30th European Conference
on IR Research, ECIR 2008, pages 370–381, 2008.

A. Krizhevsky, I. Sutskever et G.E. Hinton : Imagenet classifica-


tion with deep convolutional neural networks. In Advances in Neural
Information Processing Systems, 2012.

M. Kupperman : Probabilities of hypotheses and information-statistics


in sampling from exponential-class populations. Annals of Mathematical
Statistics, 9(2) :571–575, 1958.

I. Laptev : On space-time interest points. International Journal on


Computer Vision, 64(2-3) :107–123, 2005.
☛✟ ☛✟
✡✠ G. Latouche et V. Ramaswami : Introduction to matrix analytic me- ✡✠
thods in stochastic modeling. ASA-SIAM Series on statistics and applied
probability. Philadelphia, Pa. SIAM, Society for Industrial and Applied
Mathematics Alexandria, Va. ASA, American Statistical Association,
1999. ISBN 0-89871-425-7.

S.L. Lauritzen : Graphical models. Clarendon Press, Oxford, United


Kingdom, 1996.

Y. LeCun et M. Ranzato : Deep learning tutorial, ICML, 2013.

D.D. Lee et H.S. Seung : Algorithms for non-negative matrix factoriza-


tion. In Advances in neural information processing systems, 2001.

O. Levy et Y. Goldberg : Neural word embedding as implicit matrix


factorization. In Advances in Neural Information Processing Systems
27, 2014.

J.B. Lovins : Development of a stemming algorithm. Mechanical Trans-


lation and Computational Linguistics, 11 :22–31, 1968.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXIII

BIBLIOGRAPHIE – XXIII

D.G. Lowe : Distinctive image features from scale-invariant keypoints. In-


ternational Journal on Computer Vision, 60(2) :91–110, novembre 2004.
ISSN 0920-5691.

H. P. Luhn : The automatic creation of literature abstracts. IBM Journal


of Research and Development, 2(2) :159–165, 1958.

J. Mackinlay : Automating the design of graphical presentations of


relational information. ACM Trans. Graph., 5(2) :110–141, 1986.

W.S. McCulloch et Walter Pitts : A logical calculus of the ideas


immanent in nervous activity. The bulletin of mathematical biophysics,
5(4) :115–133, Dec 1943.

E.W. Montroll : Random walks in multidimensional spaces, especially


on periodic lattices. Journal of the Society for Industrial and Applied
Mathematics (SIAM), 4(4) :241 – 260, 1956.

☛✟ T. Munzner : Visualization analysis and design. A.K. Peters Visualiza- ☛✟


✡✠ tion Series, 2014. ✡✠

V. Nair et G.E. Hinton : Rectified linear units improve restricted Boltz-


mann machines. In Proceedings of the 27th International Conference on
Machine Learning, 2010.

S. Nakajima, M. Sugiyama et D. Babacan : On bayesian pca : auto-


matic dimensionality selection and analytic solution. In Proceedings of
the 28th International Conference on Machine Learning, 2011.

Y. Nesterov : Introductory lectures on convex optimization : a basic


course, volume 87. Springer Science & Business Media, 2013.

A.B. Novikoff : On convergence proofs on perceptrons. In Proceedings


of the Symposium on the Mathematical Theory of Automata, 1962.

C.D. Paice : Another stemmer. SIGIR Forum, 24(3) :56–61, 1990.

Marjorie Paternostre, Pascal Francq, Julien Lamoral, David War-


tel et Marco Saerens : Carry, un algorithme de désuffixation pour le
français. Rapport technique, Information Technology, 2002.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXIV

XXIV – DATA SCIENCE

E.A. Patrick, J.P. Costello et F.C. Monds : Decision-directed esti-


mation of a two-class decision boundary. IEEE Transactions on Infor-
mation Theory, 9(3) :197–205, 1970.

J. Pearl : Causal diagrams for empirical research. Biometrika, 82(4) :


669–710, 1995.

W. Peng et T. Li : On the equivalence between nonnegative tensor fac-


torization and tensorial probabilistic latent semantic analysis. Applied
Intelligence, 35(2) :285–295, 2011.

J.-F. Pessiot, Y.-M. Kim, M.R. Amini et P. Gallinari : Improving


document clustering in a learned concept space. Information Processing
& Management, 46(2) :180–192, 2010.

Boris Polyak : Some methods of speeding up the convergence of ite-


ration methods. USSR Computational Mathematics and Mathematical
Physics, 4 :1–17, 12 1964.
☛✟ ☛✟
✡✠ Martin F. Porter : An algorithm for suffix stripping. Program, 14(3) : ✡✠
130–137, 1980.

M. Rajih, P. Comon et R.A. Harshman : Enhanced line search : a novel


method to accelerate parafac. SIAM Journal on Metric Analysis and
Applications, 30(3) :1128–1147, 2008.

A.S. Razavian, H. Azizpour, J. Sullivan et S. Carlsson : CNN fea-


tures off-the-shelf : an astounding baseline for recognition. In Procee-
dings of the 2014 IEEE Conference on Computer Vision and Pattern
Recognition Workshops, pages 512–519, 2014.

H. Reijner : The development of the horizon graph. In proc. Vis08


Workshop From Theory to Practice : Design, Vision and Visualization,
2008.

C.P. Robert : Le choix bayésien : principes et pratique. Springer Science


& Business Media, 2006.

C.P. Robert, G. Celeux et J. Diebolt : Bayesian estimation of hidden


Markov chains : a stochastic implementation. Statistics & Probability
Letters, 16 :77–83, 1993.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXV

BIBLIOGRAPHIE – XXV

F. Rosenblatt : The perceptron : a probabilistic model for information


storage and organization in the brain. Psychological Review, 1958.

J.S. Rosenthal : Parallel computing and monte carlo algorithms. In Far


East Journal of Theoretical Statistics, 1999.

O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma,


Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A.C. Berg et
L. Fei-Fei : ImageNet large scale visual recognition challenge. Inter-
national Journal of Computer Vision, 115(3) :211–252, 2015.

T. Saito, H.N. Miyamura, M. Yamamoto, H. Saito, Y. Hoshiya et


T. Kaseda : Two-tone pseudo coloring : compact visualization for
one-dimensional data. In proc. InfoVis’05, pages 173–180, 2005.

J. Sanchez, F. Perronnin, T. Mensink et J. Verbeek : Image clas-


sification with the Fisher vector : theory and practice. International
Journal of Computer Vision, 105(3) :222–245, 2013.
☛✟ ☛✟
✡✠ R.E. Schapire : Theoretical views of boosting and applications. In Pro- ✡✠
ceedings of the 10th International Conference on Algorithmic Learning
Theory, pages 13–25, 1999.

H. Schmid : Probabilistic part-of-speech tagging using decision trees. In


Proceedings of the International Conference on New Methods in Lan-
guage Processing, 1994.

B. Schölkopf et A.J. Smola : Learning with kernels : support vector


machines, regularization, optimization and beyond. MIT Press, 2002.

H.-J. Schulz : Treevis.net : a tree visualization reference. IEEE Computer


Graphics and Applications, 31(6) :11–15, 2011.

S. Shalev-Shwartz, Y. Singer, N. Srebro et A. Cotter : Pegasos :


primal estimated sub-gradient solver for SVM. Mathematical Program-
ming, 127(1) :3–30, 2011.

B. Shneiderman : Tree visualization with tree-maps : 2-d space-filling


approach. ACM Trans. Graph., 11(1) :92–99, 1992.

B. Shneiderman : The eyes have it : a task by data type taxonomy for


information visualizations. In proc. Visual Languages, 1996.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXVI

XXVI – DATA SCIENCE

K. Simonyan et A. Zisserman : Very deep convolutional networks for


large-scale image recognition. CoRR, 2014.

J. Sivic et A. Zisserman : Video Google : a text retrieval approach to


object matching in videos. In Proceedings of the 9th IEEE International
Conference on Computer Vision, 2003.

N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever et R. Sa-


lakhutdinov : Dropout : a simple way to prevent neural networks
from overfitting. Journal of Machine Learning Research, 15 :1929–1958,
2014.

R.J. Steele et A.E. Raftery : Performance of bayesian model selection


criteria for gaussian mixture models. Frontiers of Statistical Decision
Making and Bayesian Analysis, 2 :113–130, 2010.

I. Sutskever, J. Martens, G. Dahl et G. Hinton : On the importance


of initialization and momentum in deep learning. In Proceedings of the
☛✟ 30th International Conference on Machine Learning, 2013. ☛✟
✡✠ ✡✠
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov,
D. Erhan, V. Vanhoucke et A. Rabinovich : Going deeper with
convolutions. In Computer Vision and Pattern Recognition, 2015.

M. Szummer et T. Jaakkola : Partially labeled classification with Mar-


kov random walks. In Advances in Neural Information Processing Sys-
tems, 2002.

A. Toselli et O.B. Widlund : Domain decomposition methods : algo-


rithms and theory. Springer, 2005.

A. Treisman et G. Gelade : A feature-integration theory of attention.


Cog. Psycho., 12 :97–136, 1980.

T. Trouillon, J. Welbl, S. Riedel, E. Gaussier et G. Bouchard :


Complex embeddings for simple link prediction. In Proceedings of the
33nd International Conference on Machine Learning, 2016.

J. Truett, J. Cornfield et W. Kannel : A multivariate analysis of


the risk of coronary heart disease in Framingham. Journal of Chronic
Diseases, 20(7) :511–524, 1967.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXVII

BIBLIOGRAPHIE – XXVII

N. Usunier, M.-R. Amini et P. Gallinari : A data-dependent gene-


ralisation error bound for the AUC. In ICML’05 workshop on ROC
Analysis in Machine Learning, 2005.
K.E.A. van de Sande, T. Gevers et C.G.M. Snoek : Evaluating color
descriptors for object and scene recognition. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 32(9) :1582–1596, 2010.
V.N. Vapnik : The nature of statistical learning theory (second edition).
Springer-Verlag, 1999.
P. Verghese : Visual search and attention : a signal detection theory
approach. Neuron, 31 :523–535, 2001.
J.-N. Vittaut, M.-R. Amini et P. Gallinari : Learning classification
with both labeled and unlabeled data. In Proceedings of the 13th Euro-
pean Conference on Machine Learning (ECML’02) - Helsinki, Finland,
pages 468–476, 2002.
☛✟ B. Widrow et M.E. Hoff : Adaptive switching circuits. In 1960 IRE ☛✟
✡✠ WESCON Convention Record, Part 4, New York, 1960. IRE. ✡✠

T. Zhang et F.J. Oles : A probability analysis on the value of unlabeled


data for classification problems. In 17th International Conference on
Machine Learning, 2000.
S. Zhao, M.J. McGuffin et M.H. Chignell : Elastic hierarchies : com-
bining treemaps and node-link diagrams. In Proc. IEEE InfoVis 2005,
October 2005.
D. Zhou, O. Bousquet, T.N. Lal, J. Weston et B. Schölkopf : Lear-
ning with local and global consistency. In Advances in Neural Informa-
tion Processing Systems, 2004.
X. Zhu et Z. Ghahramani : Learning from labeled and unlabeled data
with label propagation. Rapport technique CMU-CALD-02-107, Car-
negie Mellon University, 2002.
X. Zhu, Z. Ghahramani et J. Lafferty : Semi-supervised learning
using gaussian fields and harmonic functions. In 20th International
Conference on Machine Learning, 2003.

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXVIII

☛✟ ☛✟
✡✠ ✡✠

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXIX

Index

accélération, 58 apprentissage
activation non-supervisé, 66
Heaviside, 178 profond, 177, 205
linéaire, 180 semi-supervisé, 66, 146, 164, 167,
adaptive boosting, voir algorithme 171
☛✟ Adaboost modèles de mélange, 171 ☛✟
✡✠ ✡✠
Adaptive Linear Neuron, voir modèles discriminants, 171
algorithme ADALINE modèles graphiques, 165
ADMM, 81, 90 supervisé, 67, 145, 164
algorithme attributs des données
Adaboost, 148, 149, 172 agrégation, 215
ADALINE, 179, 183 attribut des données, 214
aléatoire, 84 comparaison, 215
CEM, 171 nominaux, 215, 224
de Gibbs, 126 ordonnés, 215, 224
de gradient proximal, 80 quantitatifs, 216, 224
des moindres carrés alternés, 107, échelle d’intervalle, 216
110 échelle de ratio, 216
du gradient, 77
du gradient stochastique, 83 base
EM, 171 d’entraînement, 145, 147, 151,
EM Monte Carlo, 127 155–157, 159, 160, 162, 163, 183
LDA, 138 BIC, 132, 139
Metropolis Hastings, 125 boosting, 148
NMF, 105
perceptron, 209 chaînes de Markov cachées, 119, 134
PESGASOS, 174 classe de fonctions, 145
SAG, 86 classification, 68
SAGA, 86 EM, voir algotithme CEM
analyse en composantes principales multi-classe
probabiliste, 118, 132 mono-label, 161, 162
multi-label, 161, 162

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXX

XXX – DATA SCIENCE

classifieur échantillonneur de Gibbs, 125


binaire, 148 efficacité, 59
de base, 150 empirical risk minimization, voir
de vote, 148, 149 minimisation du risque empirique
faible, 148, 172 équilibrage des ressources, 54
linéaire, 150 erreur
non-linéaire, 155 de classification, 175
CMC, 119, 134 de généralisation, 145
condition de Hinge, 175
d’optimalité, 73 empirique, 145
Karush-Kuhn-Tucker, 153, 158 quadratique, 183
conditionnement, 78 espace
contrainte, 67 de Hilbert, 155
non saturée, 152 de plongement, 155
saturée, 152 de redescription, 155, 157
convergence, 78
exponentielle, 78 famille exponentielle, 122
convexité, 74 familles de lois conjuguées, 121
forte, 76 feature space, voir espace de
coût redescription
☛✟ ☛✟
convexe, 207 feed forward, 185

✡✠ ✡✠
fonction
DAG, 127 d’activation, 199
decision boundary, voir frontière de d’erreur, 145
décision de décision, 154
deep learning, voir apprentissage de projection, 155
profond de prédiction, 145, 164
densité de probabilité, 171 objectif, 152, 154, 157, 159, 180
descente, voir gradient forme logistique, 147
desired output, voir sortie désirée fortement convexe, 175
différentiation automatique, 196 frontière de décision, 151
directed acyclic graphs, voir DAG
direction de descente, voir gradient gradient, 71
discrimination logistique, voir descente, voir algorithme du
régression logistique gradient
distance de Hamming, 161, 163 stochastique, 183, 187, 190, 202
données redondantes, 84 granularité, 51
dual de Wolfe, 154 graphe moral, 128
décomposition
canonique de tenseur, 109 hard margin, voir marge dure
de données, 52 hessienne, 152, 154, 166, 207, 208
exploratoire, 52 symétrique positive définie, 154,
récursive, 51 207
spéculative, 52 hyperplan
déduction, 146 marginal, 153–155, 159
développement de Taylor, 207, 208 séparateur, 151, 180, 183, 184
hypersphère, 176

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXXI

– XXXI

hypothèse mode
de continuité, 166 batch, 181
de partition, 172 modèle
de variété, 166 graphique, 117, 127
hiérarchique, 136
i.i.d., 131, 161 linéaire mixte gaussien, 143
identiquement et indépendamment maître-esclave, 57
distribué, voir i.i.d. probabiliste graphique, 117, 127
induction, 146 mot de code, 163
iso-efficacité, 62 multi-layer perceptron, voir
isotrope, 119 perceptron multicouche
multistabilité, 218
label spreading, voir propagation des mélange de lois, 117, 129
étiquettes méthode
lagrangien, 152, 153, 158 d’ensemble, 148
latent dirichlet allocation, voir LDA de Newton, 79
LDA, 136 linéaire paramétrique, 147
learning rate, voir pas de descente, à base de votes, 148
voir pas de descente
lemmatisation, 9 namenode, 30
☛✟ ☛✟
ligne de niveau, 208 normalisation textuelle, 7

✡✠ ✡✠
linéairement séparable, 151, 153, 155, noyau
157, 160, 183, 184 gaussien, 156
localité, 55 polynomial, 156
logistic regression, voir régression
loi objectif, 67
a posteriori, 121 optimisation
a priori, 121 distribuée, 88
d’Amdahl, 59 duale, 154, 159
d’émission, 129 sous contraintes, 152, 159
opérateur proximal, 80–82, 87–90, 92,
maintenabilité, 42 93
map-reduce, 88 soft-thresholding, 92
marche aléatoire, 169 outlier, voir point aberrant
marge, 151, 155 overfitting, voir surapprentissage
d’un exemple, 180
dure, 151 parallélisme
souple, 156 d’instructions, 46
matrice de bits, 45
de Gram, 154 de données, 56
jacobienne, 152 de tâches, 46, 56
laplacienne, 166 explicite, 46
par blocs, 166 implicite, 46
stochastique, 168 parcimonie, 71
max-pooling, 200 pas d’apprentissage, voir pas de
minimisation du risque descente, 181, 184
empirique, 146, 162 pas de descente, 77

☛✟
✡✠
☛✟
✡✠
DataScienceOuvrage 22 janvier 2019 20:08 Page XXXII

XXXII – DATA SCIENCE

perception steepest descent, voir algorithme du


Gestalt, 217 gradient
groupes, 218 supervised learning, voir apprentissage
invariance, 217 supervisé
multistabilité, 218 support vector, voir vecteur de
perception, 217 support
pré-attentive, 218 support vector machine, voir
réification, 218 séparateurs à vaste marge
stimulus, 217 surapprentissage, 70, 146
émergence, 218
perceptron, 179 taux d’apprentissage, 77
multicouche, 179, 185 tenseur, 108
architecture, 186 théorème
pipelining, 57 de Schwarz, 207
PMC, voir perceptron multicouche tokenisation, 6
poids synaptiques, 178 training set, voir base d’entraînement
point aberrant, 159
valeur propre, 208
prédiction, 68
variable graphique
PReLU, 203
couleur, 221, 225
problème d’optimisation, 67
☛✟ ☛✟
daltonisme, 222
programmation quadratique, 153
dégradé, 222
✡✠ ✡✠
propagation
encodage graphique, 214
des étiquettes, 165
forme, 221, 222
prox-simple, voir opérateur proximal
grain, 221, 225
qualification de contraintes, 152 marque, 219
orientation, 221
racinisation, 9 position, 220, 224
random walk, voir marche aléatoire taille, 220, 223, 224
rectified linear unit, voir ReLU troisième dimension, 223
ReLU, 203 valeur, 220, 225
réduction de variance, 85 variable de l’image, 214
régression, 68 échelle de couleur, 222
logistique, 147 variables
régularisation, 70 d’écart, 157, 158
réseaux récurrents, 185 de Lagrange, 158, 159
primales, 153
scalabilité, 62 vecteur
segmentation, 6 de support, 151, 153–155, 157, 159
séparateurs à vaste marge, 150 gradient, 181
algorithme (marge dure), 156 indicateur
algorithme (marge souple), 160 de classe, 161, 164
slack variables, voir variables d’écart propre, 207–209
soft margin, voir marge souple visualisation interactive d’information,
solution optimale, 67 211
sortie désirée, 145 vraisemblance
statistique bayésienne, 120 classifiante, 147, 171

☛✟
✡✠

Vous aimerez peut-être aussi